DE60015531T2

DE60015531T2 - Client-server spracherkennungssystem

Info

Publication number: DE60015531T2
Application number: DE60015531T
Authority: DE
Inventors: Eric Thelen; Stefan Besling
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 1999-03-26
Filing date: 2000-03-07
Publication date: 2005-03-24
Anticipated expiration: 2020-03-08
Also published as: KR20010108402A; EP1181684A1; CN1351745A; AU3165000A; JP2002540479A; ATE281689T1; EP1181684B1; DE60015531D1

Description

Die Erfindung betrifft ein verteiltes Spracherkennungssystem zur Erkennung eines Spracheingangssignals; das System enthält mindestens eine Client-Station und eine Server-Station; die Client-Station enthält Mittel zum Empfangen des Spracheingangssignals von einem Benutzer und Mittel zum Transferieren eines die empfangene Sprache repräsentierenden Signals zu der Server-Station über das öffentliche Internet; und die Server-Station enthält Mittel zum Empfangen des Sprach-Äquivalentsignals von dem öffentlichen Internet und einen Spracherkenner oder eine Spracherkennung mit großem/enormem Vokabular zur Erkennung des empfangenen Sprach-Äquivalentsignals.
Außerdem betrifft die Erfindung ein Verfahren zum Erkennen eines Spracheingangssignals in einem verteilten System mit mindestens einer Client-Station und einer Server-Station.
Aus WO 98/34217 ist ein Spracherkennungssystem bekannt, das mehrere Erkenner verwendet, wobei eine Sprachprobe mit einem Computersystem erkannt wird, indem die Sprachprobe mit mindestens zwei Spracherkennern verarbeitet wird, von denen jeder eine unterschiedliche Leistungseigenschaft aufweist. Ein Spracherkenner kann für Echtzeit-Ansprechverhalten optimiert sein, und ein anderer Spracherkenner für hohe Genauigkeit. Der Sprachinhalt der Probe wird auf der Basis von Verarbeitungsergebnissen aus den Spracherkennern erkannt. Bei einer Implementierung werden in der Sprachprobe enthaltene Sprechbefehle lokal durch den Echtzeit-Erkenner abgehandelt und werden nicht zu dem Offline-Erkenner oder einem Kombinierer gesendet. Andere Implementierungen können jedoch die Sprechbefehle zu dem Offline-Erkenner, dem Kom binierer und/oder einer Offline-Transkriptionsstation senden. Obwohl aus WO 98/34217 ein auf einer Client-Server-Architektur basierendes verteiltes Spracherkennungssystem bekannt ist, wird darin kein System gelehrt, das über ein Netzwerk, wie zum Beispiel das öffentliche Internet, vernetzt ist. Außerdem kann das System nicht viele Client-Stationen unterstützen und die sehr große Last auf dem Server, die sich entwickelt, wenn viele Client-Stationen gleichzeitig betrieben werden, abhandeln.
Aus US 5,819,220 ist ein Client-Server-Spracherkennungssystem bekannt, bei dem die Client-Station lokal beim Benutzer ist und sich der Server über das öffentliche Internet zugänglich abgesetzt befindet. Dieses System dient zur Bereitstellung von Spracheingaben in Bezug auf eine Web-Seite. Der Benutzer führt der Client-Station, die unter Verwendung eines herkömmlichen Browsers eine Web-Seite anzeigt, Spracheingaben zu. Die Sprache kann zum Beispiel zum Spezifizieren einer Anfrage oder zum Auffüllen von Informationsfeldern (z.B. Name und Adresse) der Seite verwendet werden. Gewöhnlich empfängt die Client-Station die Sprache über ein Mikrophon und einen A/D-Umsetzer einer Audiokarte. Auf dem öffentlichen Internet wird eine Repräsentation der Sprache zu einem Sprach-Server gesendet. Dieser Server kann sich in einem Web-Server, der die Web-Seite geliefert hat, befinden oder über diesen zugänglich sein. Der Server kann außerdem über das öffentliche Internet an einem von dem Web-Server unabhängigen Ort zugänglich sein. Der Server erkennt die Sprache. Die Erkennungsausgabe (z.B. eine erkannte Wortsequenz) kann zu der Client-Station zurück oder direkt zu dem Web-Server gesendet werden. Bei dem bekannten System kann in dem Server ein leistungsstarker Spracherkenner verwendet werden, der Sprache in einer Internetumgebung erkennen kann und dafür optimiert ist. Für bestimmte Anwendungen ist es erforderlich, daß dieser Erkenner bis zu einem gewissen Grad die enormen Vokabulare unterstützen kann, die in einer Internetumgebung auftreten können, in der ein Benutzer praktisch auf jedes beliebige Dokument über jedes beliebige Thema zugreifen kann. Bei dem bekannten Client-Server-System enthält die Client-Station keinen Spracherkenner.
Da bei dem beschriebenen System alle Spracheingaben an den Server gerichtet sind, kann die Last auf dem Server sehr groß werden. Dies gilt insbesondere dann, wenn das System viele gleichzeitig betriebene Client-Stationen unterstützt.
Eine Aufgabe der Erfindung ist die Verbesserung des dargelegten Systems und Verfahrens durch Vermindern der Last auf dem Server.
Um die Aufgabe erfindungsgemäß zu lösen, ist das System dadurch gekennzeichnet, daß die Client-Station einen lokalen Spracherkenner und eine Sprachsteuerung enthält; wobei die Sprachsteuerung wirkt, um mindestens einen Teil des Spracheingangssignals zu dem lokalen Spracherkenner zu lenken und abhängig von einem durch den lokalen Erkenner erkannten Aktivierungsbefehl selektiv einen Teil des Spracheingangssignals über das öffentliche Internet zu der Server-Station zu lenken. Indem auch ein Erkenner in die Client-Station integriert wird, kann Last von dem Server entfernt werden. Der Server kann für die schwierige Aufgabe bestimmt werden, eine qualitativ hochwertige Erkennung von Sprache mit enormem Vokabular für möglicherweise viele gleichzeitige Benutzer bereitzustellen und kann von einfachen Aufgaben befreit werden, die der lokale Erkenner leicht erfüllen kann. Obwohl die Aufgaben einfach sein können, können sie eine große Last von dem Server und dem öffentlichen Internet entfernen, indem es einfach unnötig gemacht wird, alle Spracheingaben zu dem Server zu senden. Außerdem können bestimmte Erkennungsaufgaben in dem Klienten effektiver als in dem Server durchgeführt werden, da der Klient einen leichteren Zugriff auf für die Erkennung relevante lokale Informationen haben kann.
wie in dem Maß des abhängigen Anspruchs 2 definiert, wird in der Client-Station ein einfacher Erkenner verwendet. Auf diese Weise können die zusätzlichen Kosten und die zusätzliche Verarbeitungslast auf der Client-Station gering gehalten werden.
Wie in dem Maß des abhängigen Anspruchs 3 definiert, dient der lokale Erkenner zum Erkennen eines gesprochenen Aktivierungsbefehls. Dadurch wird der zentrale Erkenner davon befreit, kontinuierlich von den Client-Stationen kommende Spracheingangssignale zu scannen, auch wenn der Benutzer nicht spricht oder wenn der Benutzer spricht, aber nicht wünscht, daß seine Sprache erkannt wird. Außerdem wird das öffentliche Internet von unnötiger Last befreit.
Wie in dem Maß des abhängigen Anspruchs 4 definiert, dient der lokale Erkenner zur Durchführung einer Erkennung von Anweisungen zur Steuerung der lokalen Client-Station. Die Client-Station ist am besten dafür geeignet, zu bestimmen, welche lokalen Operationen möglich sind (z.B. welche Menüelemente über Sprache gesteuert werden können). Außerdem wird vermieden, daß die Sprache über das öffentliche Internet gesendet wird und das Erkennungsergebnis zurückgesendet wird, während sich die lokale Station genausogut oder sogar besser für die Durchführung der Erkennungsaufgabe eignet.
Wie in dem Maß des abhängigen Anspruchs 5 definiert, verwendet die Client-Station ihren lokalen Erkenner zur Bestimmung, zu welchem Sprachserver das Sprachsignal gesendet werden muß. Ein solcher Ansatz kann effizient in Situationen verwendet werden, in denen mehrere Spracherkennungsserver vorliegen. Ein Beispiel hierfür ist eine Web-Seite, die mehrere Werbebanner verschiedener Firmen enthält. Ein Teil dieser Firmen oder alle können ihren eigenen Spracherkennungsserver aufweisen, um zum Beispiel einem Benutzer das Formulieren gesprochener Anfragen zu ermöglichen. Der lokale Erkenner bzw. die lokale Steuerung kann die Auswahl des Servers und das Routen der Sprache auf der Basis gesprochener expliziter Routing-Befehle, wie zum Beispiel "select Philips" oder "speak to Philips", durchführen. Informationen, die für das Erkennen des Routing-Befehls verwendet werden, können von dem Banner selbst extrahiert werden. Solche Informationen können in dem Banner in der Form eines Tags vorliegen und können Elemente enthalten wie zum Beispiel eine Text- und phonetische Repräsentation des Routing-Befehls. Der lokale Erkenner bzw. die lokale Steuerung kann außerdem das Routing auf der Basis von dem jeweiligen Sprachserver zugeordneten Informationen bestimmen. Zum Beispiel kann man als Basis für das Routing Wörter des Banner texts verwenden. Wenn zum Beispiel der Benutzer ein Wort spricht, das in einem der Banner auftritt, wird die Sprache zu dem diesem Banner zugeordneten Sprachserver gelenkt. Wenn ein Wort in mehr als einem Banner auftritt, kann die Sprache zu mehreren Sprachservern gelenkt werden, oder zu einem Server, der am wahrscheinlichsten war (z.B. dessen zugeordneter Banner die größte relative Auftrittswahrscheinlichkeit des Worts aufwies). Anstatt die Wörter zu verwenden, die explizit in dem Banner gezeigt sind, kann der Banner auch z.B. über einen Link Textinformationen zugeordnet sein. Wenn der Benutzer eines oder mehrere Wörter von diesen Informationen spricht, wird der Sprachserver für den Banner gewählt.
Wie in dem Maß des abhängigen Anspruchs 6 definiert, dient der Spracherkenner in dem Server als eine Art von "Reserve" für Situationen, in denen der lokale Erkenner nicht fähig ist, die Benutzereingabe angemessen zu erkennen. Die Entscheidung, die Spracheingabe zu dem Server zu transferieren, kann auf Leistungsanzeigen basieren, wie zum Beispiel auf Bewertungen oder Konfidenzmassen. Auf diese Weise kann in der Client-Station ein herkömmlicher Erkenner mit großem Vokabular verwendet werden, während in dem Server ein leistungsstärkerer Erkenner verwendet wird. Der Erkenner in dem Server kann zum Beispiel ein größeres Vokabular oder spezifischere Sprachmodelle unterstützen. Der lokale Erkenner kann funktionsfähig bleiben und die Eingabe erkennen, auch wenn parallel dazu die Eingabe durch den Server erkannt wird. Auf diese Weise kann die Eingabe des Benutzers immer noch in „Echtzeit" erkannt werden. Die anfängliche Erkennung des lokalen Erkenners mit einer möglicherweise gerin geren Genauigkeit kann dann durch ein möglicherweise qualitativ hochwertigeres Ergebnis des Servers ersetzt werden. Ein Selektor trifft eine Endauswahl zwischen dem Erkennungsergebnis des lokalen Erkenners und dem abgesetzten Erkenner. Diese Auswahl kann auf den Leistungsanzeigern basieren.
Um die erfindungsgemäße Aufgabe zu lösen, umfaßt das Verfahren zum Erkennen eines Spracheingangssignals in einem verteilten System die folgenden Schritte:

Empfangen des Spracheingangssignals von einem Benutzer in der Client-Station;
Erkennen mindestens eines Teils des Spracheingangssignals in der Client-Station;
selektives Lenken eines Signals, das einen Teil des Spracheingangssignals repräsentiert, über das öffentliche Internet von der Client-Station zu der Server-Station abhängig von dem Ergebnis der Erkennung;
Empfangen des Sprachäquivalentsignals in der Server-Station von dem öffentlichen Internet; und
Erkennen des empfangenen Sprachäquivalentsignals in der Server-Station unter Verwendung eines Spracherkenners mit großem/enormem Vokabular.

Diese und weitere Aspekte der Erfindung werden durch Bezugnahme auf die in den Zeichnungen gezeigten Ausführungsformen ersichtlich und deutlich.
1 zeigt die Elemente eines typischen Spracherkenners;
2 zeigt Wortmodelle auf HMM-Basis;
3 zeigt ein Blockschaltbild eines verteilten Spracherkennungssystems gemäß der Erfindung;
4 zeigt das Verwenden des öffentlichen Internets für den Zugriff auf die Server-Station ausführlicher;
5 zeigt ein Blockschaltbild eines Systems mit einer Auswahl von Server-Stationen; und
6 zeigt das Verfahren zum Erkennen eines Spracheingangssignals in einem verteilten System.
Spracherkennungssysteme, wie zum Beispiel kontinuierliche Spracherkennungssysteme mit großem Vokabular, verwenden in der Regel eine Ansammlung von Erkennungsmodellen zur Erkennung eines Eingangsmusters. Zum Beispiel kann ein akustisches Modell und ein Vokabular verwendet werden, um Wörter zu erkennen, und ein Sprachenmodell kann verwendet werden, um das grundlegende Erkennungsergebnis zu verbessern. 1 zeigt eine typische Struktur eines kontinuierlichen Spracherkennungssystems 100 mit großen Vokabular [siehe L. Rabiner, B-H. Juang, "Fundamentals of speech recognition", Prentice Hall 1993, Seiten 434 bis 454]. Das System 100 umfaßt ein Spektralanalysesubsystem 110 und ein Einheitenvergleichssubsystem 120. In dem Spektralanalysesubsystem 110 wird das Spracheingangssignal (SIS) spektral und/oder zeitlich analysiert, um einen repräsentativen Vektor von Merkmalen (Beobachtungsvektor, OV) zu berechnen. In der Regel wird das Sprachsignal digitalisiert (z.B. mit einer Rate von 6,67 kHz abgetastet) und zum Beispiel durch Anwenden von Präemphase vorverarbeitet. Aufeinanderfolgende Abtast werte werden zu Rahmen gruppiert (in Blöcke eingeteilt), die zum Beispiel 32 ms des Sprachsignals entsprechen. Sukzessive Rahmen können sich teilweise zum Beispiel um 16 ms überlappen. Häufig wird das Spektralanalyseverfahren der linear-prädiktiven Codierung (LPC) verwendet, um für jeden Rahmen einen repräsentativen Vektor von Merkmalen (Beobachtungsvektor) zu berechnen. Der Merkmalsvektor kann zum Beispiel 24, 32 oder 63 Komponenten aufweisen. Der Standardansatz für die kontinuierliche Spracherkennung mit großem vokabular besteht darin, ein probabilistisches Modell der Sprachproduktion anzunehmen, wodurch eine spezifizierte Wortsequenz W=w₁w₂w₃...w_q eine Sequenz akustischer Beobachtungsvektoren Y=y₁y₂y₃...y_T erzeugt. Der Erkennungsfehler kann statistisch minimiert werden, indem die Wortsequenz w₁w₂w₃...w_q bestimmt wird, die am wahrscheinlichsten die beobachtete Sequenz von Beobachtungsvektoren y₁y₂y₃...y_T (über die Zeit t=1,..., T) verursacht hat, wobei die Beobachtungsvektoren das Ergebnis des Spektralanalysesubsystems 110 sind. Dies führt zu der Bestimmung der maximalen aposteriori-Wahrscheinlichkeit:
max P(W|Y) für alle möglichen Wortsequenzen W
Durch Anwenden des Theorems von Bayes über bedingte Wahrscheinlichkeiten wird P(W|Y) gegeben durch: P(W|Y) = P(Y|W).P(W)/P(Y)
Da P(Y) von W unabhängig ist, wird die wahrscheinlichste Wortsequenz durch den folgenden Ausdruck gegeben: arg max P(Y|W).P(W) für alle möglichen Wortsequenzen W (1)
In dem Einheitenvergleichssubsystem 120 liefert ein akustisches Modell den ersten Term der Gleichung (1). Das akustische Modell dient zur Schätzung der Wahrscheinlichkeit P(Y|W) einer Sequenz von Beobachtungsvektoren Y für eine gegebene Wortkette W. Für ein System mit großem Vokabular wird dies gewöhnlich durch Vergleichen der Beobachtungsvektoren mit einem Inventar von Spracherkennungseinheiten durchgeführt. Eine Spracherkennungseinheit wird durch eine Sequenz akustischer Referenzen repräsentiert. Es können verschiedene Formen von Spracherkennungseinheiten verwendet werden. Zum Beispiel kann ein ganzes Wort oder sogar eine Gruppe von Wörtern durch eine Spracherkennungseinheit repräsentiert werden. Ein Wortmodell (WM) liefert für jedes Wort eines gegebenen Vokabulars eine Transkription in einer Sequenz akustischer Referenzen. Bei den meisten Spracherkennungssystemen mit kleinem Vokabular wird ein ganzes Wort durch eine Spracherkennungseinheit repräsentiert, wobei in diesem Fall eine direkte Beziehung zwischen dem Wortmodell und der Spracherkennungseinheit besteht. In anderen Systemen mit kleinem Vokabular, die zum Beispiel zur Erkennung einer relativ großen Anzahl von Wörtern (z.B. mehreren Hunderten) verwendet werden, oder in Systemen mit großem Vokabular können Subworteinheiten auf linguistischer Basis verwendet werden, wie zum Beispiel Phoneme, Diphoneme oder Silben, sowie abgeleitete Einheiten, wie Fenene und Fenone. Für solche Systeme wird ein Wortmodell durch ein Lexikon 134 gegeben, das die Sequenz von Subworteinheiten in Bezug auf ein Wort des Vokabulars beschreibt, und die Subwortmo delle 132, die Sequenzen akustischer Referenzen der beteiligten Spracherkennungseinheit beschreiben. Ein Wortmodellzusammensteller 136 stellt das Wortmodell auf der Basis des Subwortmodells 132 und des Lexikons 134 zusammen.
2A zeigt ein Wortmodell 200 für ein System, das auf Ganzwortspracherkennungseinheiten basiert, wobei die Spracherkennungseinheit des gezeigten Worts unter Verwendung einer Sequenz von 10 akustischen Referenzen (201 bis 210) modelliert wird. 2B zeigt ein Wortmodell 220 für ein auf Subworteinheiten basierendes System, wobei das gezeigte Wort durch eine Sequenz von drei Subwortmodellen (250, 260 und 270) jeweils mit einer Sequenz von vier akustischen Referenzen (251, 252, 253, 254, 261 bis 264, 271 bis 274) modelliert wird. Die in 2 gezeigten Wortmodelle basieren auf Hidden-Markov-Modellen (HMMs), die sehr oft zur stochastischen Modellierung von Sprachsignalen verwendet werden. Unter Verwendung dieses Modells wird jede Erkennungseinheit (Wortmodell oder Subwortmodell) typischerweise durch ein HMM charakterisiert, dessen Parameter aus einer Trainingsmenge von Daten geschätzt werden. Für Spracherkennungssysteme mit großem Vokabular wird gewöhnlich eine begrenzte Menge von zum Beispiel 40 Subworteinheiten verwendet, da eine große Menge an Trainingsdaten erforderlich wäre, um ein HMM für größere Einheiten angemessen zu trainieren. Ein HMM-Zustand entspricht einer akustischen Referenz. Es sind verschiedene Techniken zur Modellierung einer Referenz bekannt, darunter diskrete oder kontinuierliche Wahrscheinlichkeitsdichten. Jede Sequenz akustischer Referenzen in Bezug auf eine spezifische Äußerung wird auch als akustische Transkription der Äußerung be zeichnet. Es ist ersichtlich, daß, wenn andere Erkennungstechniken als HMMs verwendet werden, Einzelheiten der akustischen Transkription verschieden sein werden.
Ein Wortebenen-Vergleichssystem 130 von 1 vergleicht die Beobachtungsvektoren mit allen Sequenzen von Spracherkennungseinheiten und liefert die Wahrscheinlichkeiten einer übereinstimmung zwischen dem Vektor und einer Sequenz. wenn Subworteinheiten verwendet werden, können dem Vergleich Nebenbedingungen auferlegt werden, indem das Lexikon 134 verwendet wird, um die mögliche Sequenz von Subworteinheiten auf Sequenzen in dem Lexikon 134 zu begrenzen. Dadurch verringert sich das Ergebnis auf mögliche Sequenzen von Wörtern.
Weiterhin kann ein Satzebenen-Vergleichssystem 140 verwendet werden, das auf der Basis eines Sprachenmodells (LM) dem Vergleich weitere Nebenbedingungen auferlegt, so daß die untersuchten Wege diejenigen sind, die Wortsequenzen entsprechen, die gemäß der Spezifikation durch das Sprachenmodell ordnungsgemäße Sequenzen sind. Folglich liefert das Sprachenmodell den zweiten Term P(W) von Gleichung (1). Ein Kombinieren der Ergebnisse des akustischen Modells mit denen des Sprachenmodells führt zu einem Ergebnis des Einheitenvergleichssubsystems 120, das ein erkannter Satz (RS) 152 ist. Das bei der Mustererkennung verwendete Sprachenmodell kann syntaktische und/oder semantische Nebenbedingungen 142 der Sprache und der Erkennungsaufgabe umfassen. Ein Sprachenmodell auf der Basis syntaktischer Nebenbedingungen wird gewöhnlich als eine Grammatik 144 bezeichnet. Die von dem Sprachenmodell verwendete Grammatik 144 liefert die Wahrscheinlichkeit einer Wortsequenz W=w₁w₂w₃...w_q, die im Prinzip durch den folgenden Ausdruck gegeben wird: P(w) = P(w1)P(w2|w1).P(w3|w1w2) ...P (wq|w1w2w3...wq).
Da es in der Praxis nicht machbar ist, die bedingten Wortwahrscheinlichkeiten für alle Wörter und alle Sequenzlängen in einer gegebenen Sprache zuverlässig zu schätzen, werden weithin N-Gramm-Wortmodelle verwendet. In einem N-Gramm-Modell wird der Term P(w_j|w₁w₂w₃...w_j–1) durch P(w_j|w_j–N+1...w_j–1) approximiert. In der Praxis werden Bigramme oder Trigramme verwendet. In einem Trigramm wird der Term P(w_j|w₁w₂w₃...w_j–1) durch P (w_j|w_j–2w_j–1) approximiert.
3 zeigt ein Blockschaltbild eines verteilten Spracherkennungssystems 300 gemäß der Erfindung. Beispiele für die Arbeitsweise des Systems werden insbesondere für eine Anwendung beschrieben, bei der erkannte Sprache in eine Text- oder ähnliche Repräsentation umgesetzt wird. Eine solche Textrepräsentation kann für Diktierzwecke verwendet werden, wobei die Textrepräsentation in ein Dokument eingegeben wird (z.B. in einem Textverarbeitungsprogramm), oder in ein Textfeld, z.B. zum Spezifizieren eines Felds in einer Datenbank. Für Diktate unterstützen derzeitige Erkenner mit großem Vokabular ein aktives Vokabular und ein Lexikon von bis zu 60 000 Wörtern. Es ist schwierig, ausreichende relevante Daten zum Ausbauen von Modellen zu erhalten, die zu einer ausreichend genauen Erkennung für eine viel größere Anzahl von Wörtern fähig sind. In der Regel kann ein Benutzer eine bestimmte Anzahl von Wörtern zu dem aktiven Voka bular/Lexikon hinzufügen. Diese Wörter können aus einem Hintergrundvokabular von 300 000 bis 500 000 Wörtern abgerufen werden (das außerdem eine akustische Transkription der Wörter enthält). Für Diktat- oder ähnliche Zwecke kann ein enormes Vokabular zum Beispiel aus mindestens 100 000 aktiven Wörtern oder sogar über 300 000 aktiven Wörtern bestehen. Es versteht sich, daß insbesondere für eine Internetumgebung, in der durch ein Klicken auf einen Link ein völlig anderer Kontext erzeugt werden kann, es vorzuziehen ist, daß viele der Wörter des Hintergrundvokabulars aktiv erkannt werden können. Für andere Erkennungsaufgaben, wie zum Beispiel das Erkennen von Namen, die gewöhnlich als eine flache Liste mit einer bestimmten Form ihr angebundener vorbekannter Namenswahrscheinlichkeit modelliert werden, für die aber kein qualitativ hochwertiges Sprachenmodell existiert, ein Vokabular von mehr als 50 000 Wörtern bereits als enorm klassifiziert werden kann.
Es versteht sich, daß das Erkennungsergebnis nicht für Diktierzwecke benutzt werden muß. Es kann genausogut als Eingabe für andere Systeme, wie zum Beispiel Dialogsysteme, verwendet werden, wobei abhängig von der erkannten Sprache Informationen aus einer Datenbank abgerufen werden oder eine Operation, wie zum Beispiel das Bestellen eines Buchs oder das Reservieren einer Reise, bewirkt wird.
Das verteilte Erkennungssystem 300 umfaßt eine Server-Station 310 und mindestens eine Client-Station. Es sind drei Client-Stationen 320, 330 und 340 gezeigt, wobei weitere Einzelheiten nur für die Client-Station 330 gezeigt werden. Die Stationen können durch Verwendung herkömmlicher Computertechnologie implementiert werden. Zum Beispiel kann die Client-Station 330 durch einen Desktop-PC oder eine Workstation gebildet werden, während die Server-Station 310 durch einen PC-Server oder einen Workstation-Server gebildet werden kann. Die Computer werden unter der Kontrolle eines geeigneten, in den Prozessor des Computers geladenen Programms betrieben. Die Server-Station 310 und die Client-Stationen 320, 330 und 340 sind über das öffentliche Internet 350 verbunden.
4 zeigt die Verwendung des öffentlichen Internets 400 ausführlicher. Die Server-Station 310 kann als ein Dienstanbieter betrachtet werden, der Benutzern (Client-Stationen) über das öffentliche Internet einen Dienst bereitstellt. Der von dem Dienstanbieter gebotene Dienst kann auf Sprache-zu-Text-Umsetzung (Empfangen der Sprache über das öffentliche Internet und Zurückgeben des Erkennungsergebnisses in Text- oder ähnlicher Form) beschränkt werden. Außerdem kann der Dienstanbieter erweiterte Funktionalität anbieten, wie zum Beispiel als Portal für verschiedene Arten von in dem öffentlichen Internet verfügbaren Informationen zu wirken. Solche erweiterte Funktionalität kann die durch die Server-Station erkannte Sprache verwenden, und in diesem Fall muß die erkannte Sprache nicht an die Client-Station zurückgegeben werden. Die Client-Stationen erhalten Zugriff auf das öffentliche Internet 400 über Zugriffsanbieter. Es sind zwei Zugriffsanbieter 410 und 420 gezeigt. Zum Beispiel gibt der Zugriffsanbieter 410 der Client-Station 320 Zugriff, während der Zugriffsanbieter 420 den Client-Stationen 330 und 340 Zugriff bereitstellt. Die Verbindung zwischen dem Zugriffsanbieter und seiner Client- Station bzw. seinen Client-Stationen erfolgt gewöhnlich über ein großflächiges Netzwerk, wie zum Beispiel eine Einwähltelefonverbindung oder eine Kabelfernsehverbindung.
Wie in 3 gezeigt, umfassen die Stationen Kommunikationsmittel 312 bzw. 332 zur Kommunikation über das öffentliche Internet 350. Es kann jedes beliebige Kommunikationsmittel verwendet werden, das sich zur Verwendung in Kombination mit dem öffentlichen Internet 350 eignet. In der Regel werden die Kommunikationsmittel durch eine Kombination von Hardware, wie zum Beispiel eine Kommunikationsschnittstelle oder ein Modem, und Software in Form eines Softwaretreibers, der ein spezifisches Kommunikationsprotokoll, darunter die TCP-IP-Protokolle des Internets, unterstützt, gebildet. Die Client-Station 330 umfaßt Mittel zum Empfangen von Sprache von einem Benutzer, zum Beispiel über eine Schnittstelle 331. Die Client-Station 330 umfaßt weiterhin Mittel zur Vorverarbeitung des Sprachsignals, damit es für den Transfer zu der Server-Station 310 geeignet wird. Zum Beispiel kann die Client-Station ein Spektralanalysesubsystem 333 umfassen, das dem Spektralanalysesubsystem 110 von 1 ähnlich ist. Die Server-Station 310 kann alle anderen für das System 100 von 1 beschriebenen Aufgaben durchführen. Vorzugsweise ist die Server-Station zu kontinuierlicher Spracherkennung mit großem oder enormem Vokabular fähig. Spracherkennung mit großem Vokabular an sich ist wohlbekannt. Für die Spracherkennung mit enormem Vokabular wird vorzugsweise die in der europäischen Anmeldung EP 99200949.8 beschriebene Technik verwendet. Die Server-Station 310 umfaßt einen Erkenner 312, der dem Einheitenvergleichssubsystem von 1 ähnlich sein kann und ein Wortmodell und ein Sprachenmodell verwendet. Die Erkennungsausgabe, wie zum Beispiel eine Sequenz erkannter Wörter RS kann zu der Client-Station 330 zurückgesendet werden. Sie kann auch in der Server-Station 310 zur weiteren Verarbeitung (z.B. in einem Dialogsystem) verwendet oder zu einer weiteren Station, wie zum Beispiel einem Dienstanbieter auf dem Internet, transferiert werden. Gemäß der Erfindung enthält die Client-Station 330 einen Spracherkenner 334. Bei einer bevorzugten Ausführungsform ist der Spracherkenner 334 der Client-Station 330 ein begrenzter Spracherkenner, wie zum Beispiel ein Erkenner mit kleinem Vokabular oder Schlüsselwort-Erkenner. Solche Erkenner sind wohlbekannt und können kosteneffektiv implementiert werden. Außerdem enthält die Client-Station 330 eine Sprachsteuerung 335. Die Sprachsteuerung 335 analysiert das Ergebnis der Erkennung durch den lokalen Erkenner 334 und lenkt in Abhängigkeit von dem Ergebnis der Erkennung selektiv einen Teil des Spracheingangssignals über das öffentliche Internet 350 zu der Server-Station 310. Zu diesem Zweck enthält die Client-Station 330 einen steuerbaren Schalter 336, der bestimmt, ob die über die Schnittstelle 331 empfangene (und durch den Analysierer 333 analysierte) Spracheingabe mittels der Kommunikationsschnittstelle 332 zu der Server-Station 310 gesendet werden soll oder nicht. Abhängig von der Aufgabe des lokalen Erkenners 334 und der Last, die der Client-Station 330 auferlegt werden kann, kann die Sprachsteuerung 335 einen weiteren Schalter verwenden, um nur einen Teil des Spracheingangssignals zu dem lokalen Spracherkenner zu transferieren. Zum Beispiel kann die Client-Station 330 einen Sprachaktivitätsdetektor enthalten, der zum Beispiel auf der Basis des Energiepegels des empfange nen Eingangssignals bestimmt, ob der Benutzer sprechen könnte oder nicht. Wenn der Benutzer nicht spricht (der Pegel ist unter einer Schwelle); muß das Signal nicht zu dem lokalen Erkenner 334 gelenkt werden. Solche Aktivitätsdetektoren sind bekannt. Wenn die Last kein begrenzender Faktor ist, wird bevorzugt, die Sprache immer zu dem lokalen Erkenner zu lenken, zumindest wenn der Benutzer die betreffenden Programme aktiviert hat und somit einen Wunsch angegeben hat, zu einem bestimmten Zeitpunkt eine Erkennungssitzung zu starten. Indem der lokale Erkenner immer aktiv gelassen wird, können Defekte der auf Energie basierenden Aktivitätsdetektoren vermieden werden. Zum Beispiel ist es sehr schwierig, eine genaue Einstellung einer Schwelle für einen solchen Detektor zu erzielen, insbesondere in einer rauschbehafteten Umgebung, z.B. mit Hintergrundmusik oder im Hintergrund sprechenden Leuten.
Bei einer bevorzugten Ausführungsform ist der Spracherkenner 334 ein begrenzter Spracherkenner, der wirkt, um einen gesprochenen Befehl zur Aktivierung der Erkennung durch die Server-Station zu erkennen. Wenn ein solcher vorbestimmter Befehl (oder einer von mehreren vorbestimmten Aktivierungsbefehlen) erkannt wurde, steuert die Sprachsteuerung 335 den Schalter 336, um das Spracheingangssignal zu der Server-Station 310 zu lenken. Außerdem sendet die Sprachsteuerung 335 eine Aktivierungsanweisung über die Kommunikationsmittel 332 zu der Server-Station 310. Diese Aktivierungsanweisung kann implizit sein. Zum Beispiel kann die Erkennung in dem Server 310 automatisch immer dann aktiviert werden, wenn Sprache über die Kommunikationsschnittstelle 312 empfangen wird.
Bei einer alternativen Ausführungsform wirkt der Erkenner 334 zur Erkennung mindestens eines gesprochenen Befehls bzw. mindestens einer gesprochenen Steueranweisung in Bezug auf den Betrieb der lokalen Client-Station 330. Für diese Aufgabe reicht es aus, einen Erkenner mit kleinem Vokabular oder Schlüsselwort-Erkenner zu verwenden. Als Reaktion auf das Erkennen eines lokalen Befehls bzw. einer lokalen Steueranweisung gibt die Sprachsteuerung 335 eine entsprechende Maschinensteueranweisung an eine Stationssteuerung 337 der lokalen Client-Station 330 aus. Eine solche Maschinenanweisung kann eine Anweisung des Betriebssystems oder der Benutzerschnittstelle sein, die zum Beispiel für das Windows-Betriebssystem definiert ist. Die Sprachsteuerung 335 sowie die Stationssteuerung 337 können Tasks unter Windows sein.
Bei einer alternativen Ausführungsform (siehe 5) enthält das System 500 mehrere Server-Stationen, gezeigt sind 510, 520 und 530. Die Serverstationen können ähnlich wie für die Server-Station 310 von 3 beschrieben konstruiert sein. Die Server-Stationen sind über das öffentliche Internet 540 mit mindestens einer Client-Station verbunden, gezeigt ist die Client-Station 550. Die Client-Station 550 kann ähnlich wie für die Station 330 von 3 beschrieben konstruiert sein. Der Spracherkenner der Client-Station 550 ist vorzugsweise ein begrenzter Spracherkenner. Der Spracherkenner wirkt zum Erkennen von Sprach-Routing-Befehlen. Die Sprachsteuerung der Client-Station lenkt selektiv das Spracheingangssignal zu mindestens einem dem erkannten Routing-Befehl zugeordneten Server. Das Lenken kann auf einer Tabelle zum Übersetzen eines Sprach-Routing-Befehls zu einer Netzwerkadresse einer Ser ver-Station basieren. Eine solche Tabelle kann vorbestimmt sein, z.B. einmal in die Client-Station geladen oder durch den Benutzer der Client-Station eingegeben werden. Als Alternative kann eine solche Tabelle dynamisch sein. Zum Beispiel kann die Tabelle in ein Dokument, wie zum Beispiel ein HTML-Dokument, das über das Internet heruntergeladen wird, eingebettet oder diesem zugeordnet sein. In einem solchen Dokument können verschiedene Bereiche verschiedenen jeweiligen Servern assoziiert sein. Zum Beispiel kann ein Dokument mehrere Werbebanner jeweils mit seinem eigenen Erkennungsserver enthalten.
Bei einer alternativen Ausführungsform ist der Spracherkenner 334 der Client-Station 330 von 3 ein Spracherkenner mit großen Vokabular (oder wahlweise ein Spracherkenner mit enormem Vokabular). Die Sprachsteuerung 335 lenkt einen Teil des Spracheingangssignals (oder das gesamte Spracheingangssignal) zu der Server-Station 310, wenn ein Leistungsanzeiger für ein Erkennungsergebnis des Spracherkenners 334 in der lokalen Client-Station 330 unter einer vorbestimmten Schwelle liegt. Das Lenken kann durch Wechseln des Schalters 336 bewirkt werden. Im Prinzip kann es ausreichen, nur den letzten Teil des Sprachsignals zu der Server-Station 310 zu routen, z.B. nur den Teil, der einen falsch erkannten Satz betrifft. Es kann vorzuziehen sein, auch früheres Sprachmaterial zu der Server-Station 310 zu routen, wodurch sich die Serverstation besser mit dem Sprachsignal synchronisieren kann, und wahlweise geeignete Erkennungsmodelle zu wählen, wie zum Beispiel akustische oder Sprachenmodelle auf der Basis des früheren Teils des Signals. Die Server-Station 310 transferiert eine erkannte Wortsequenz zurück zu der Client-Station 330. Die Client-Station 330 enthält einen Selektor zur Auswahl einer erkannten Wortsequenz aus den jeweils durch den Erkenner in der Client-Station und den Erkenner in der Server-Station erkannten Wortsequenzen. In der Praxis wird die Aufgabe des Selektors mit der Aufgabe der Sprachsteuerung 335 kombiniert, die sowieso bereits die Ergebnisse der lokalen Erkennung analysiert.
6 zeigt das verfahren zum Erkennen eines Spracheingangssignals in einem verteilten System mit mindestens einer Client-Station 600 und einer Server-Station 620, die über das öffentliche Internet 610 kommunizieren können. Das Verfahren umfaßt Schritt 640 des Empfangens des Spracheingangssignals von einem Benutzer in der Client-Station 600. Im Schritt 650 wird mindestens ein Teil des Spracheingangssignals in der Client-Station 600 erkannt. Im Schritt 660 wird ein Signal, das einen Teil des Spracheingangssignals repräsentiert, selektiv über das öffentliche Internet 610 von der Client-Station 600 zu der Server-Station 620 gelenkt. Das Lenken hängt von dem Ergebnis der Erkennung in der Client-Station 600 ab. Im Schritt 670 wird das Sprachäquivalentsignal in der Server-Station 620 aus dem öffentlichen Internet 610 empfangen. Im Schritt 680 wird das empfangene Sprachäquivalentsignal in der Server-Station 620 unter Verwendung eines Spracherkenners mit großem/enormem Vokabular erkannt. Wahlweise gibt die Server-Station im Schritt 685 Informationen, die ein Erkennungsergebnis (z.B. eine textliche Transkription der erkannten Sprache) der Erkennung des sprachrepräsentativen Signals repräsentieren, über das öffentliche Internet 610 an die Client-Station 600 zurück. Im Schritt 690 empfängt die Client-Station die Informationen.

Claims

Verteiltes Spracherkennungssystem (300) zur Erkennung eines Spracheingabesignals; wobei das System mindestens eine Client-Station (330) und eine Server-Station (310) umfasst; wobei die Client-Station (330) ein Mittel (331) umfasst, mit dem das Spracheingabesignal eines Benutzers empfangen wird, und ein Mittel, mit dem ein der empfangenen Sprache entsprechendes Signal über das öffentliche Internet (350) an die Server-Station übermittelt wird; und wobei die Server-Station (310) ein Mittel (312) umfasst, mit dem das sprachäquivalente Signal vom öffentlichen Internet (350) empfangen wird, sowie eine Spracherkennung mit umfassendem/großem Vokabular (314) zum Erkennen des empfangenen sprachäquivalenten Signals; dadurch gekennzeichnet, dass die Client-Station (330) eine lokale Spracherkennung (334) und Sprachsteuerung (335) umfasst; wobei die Funktion der Sprachsteuerung darin besteht, zumindest einen Teil des Spracheingabesignals an die lokale Spracherkennung (334) zu leiten und, abhängig von einem von der lokalen Spracherkennung (334) erkannten Aktivierungsbefehl, einen Teil des Spracheingabesignals über das öffentliche Internet (350) an die Server-Station (310) zu leiten.
System (300) nach Anspruch 1, bei dem die lokale Spracherkennung (334) der Client-Station (330) eine begrenzte Spracherkennung wie eine Erkennung mit kleinem vokabular oder eine Schlüsselworterkennung ist.
System (300) nach Anspruch 1, bei dem die Funktion der Sprachsteuerung (335) darin besteht, als Antwort auf die Erkennung des Aktivierungsbefehls eine Aktivierungsanweisung an den Server (310) zu senden und das Spracheingabesignal an die Server-Station (310) zu leiten.
System (300) nach Anspruch 1, bei dem die Funktion der Erkennung (334) darin besteht, mindestens eine(n) gesprochene(n) Befehl/Steuerungsanweisung im Zusammenhang mit der Operation der lokalen Client-Station (330) zu erkennen, und die der Sprachsteuerung (335) darin, eine dem/der erkannten Befehl/Steuerungsanweisung entsprechende Gerätsteuerungsanweisung an eine Stationssteuerung der lokalen Client-Station (330) auszugeben.
System (300) nach Anspruch 1, dadurch gekennzeichnet, dass das System eine Mehrzahl von Server-Stationen umfasst; wobei die Funktion der Sprachsteuerung (335) darin besteht, das Spracheingabesignal als Antwort auf die Erkennung eines entsprechenden Sprachleitungsbefehls selektiv an mindestens einen angeschlossenen Server zu leiten.
System (300) nach Anspruch 1, bei dem die Spracherkennung (334) der Client-Station (330) eine Spracherkennung mit umfassendem Vokabular ist; wobei die Funktion der Sprachsteuerung (335) darin besteht, mindestens einen Teil des Spracheingabesignals an die Server-Station (310) zu leiten, wenn ein Leistungsindikator für ein Erkennungsergebnis der Spracherkennung (334) in der lokalen Client-Station (330) unter einem vorbestimmten Grenzwert liegt; wobei die Funktion der Server-Station (310) darin besteht, eine erkannte Wortsequenz zurück an die Client-Station (330) zu übermitteln; wobei die Client-Station (330) einen Selektor beinhaltet, der eine erkannte Wortsequenz aus den Wortsequenzen auswählt, die von der Erkennung (334) in dar Client-Station (330) bzw. der Erkennung (314) in der Server-Station (310) erkannt wurden.
Verfahren zur Erkennung eines Spracheingabesignals in einem verteilten System (300), welches mindestens eine Client-Station (330) und eine Server-Station (310) beinhal tet; wobei das Verfahren die folgenden Schritte umfasst: Empfangen des Spracheingabesignals eines Benutzers in der Client-Station (330); Erkennen von mindestens einem Teil des Spracheingabesignals in der Client-Station (330); selektives Leiten eines Signals, welches einem Teil des Spracheingabesignals entspricht, von der Client-Station (330) über das öffentliche Internet (350) an die Server-Station (310); wobei das Leiten von einem Aktivierungsbefehl abhängt, welcher von der Erkennung (334) in der Client-Station (330) erkannt wird; Empfangen des sprachäquivalenten Signals vom öffentlichen Internet (350) in der Server-Station (310); und Erkennen des empfangenen sprachäquivalenten Signals in der Server-Station (310) unter Verwendung einer Spracherkennung mit umfassendem/großem Vokabular (314).