DE60127550T2

DE60127550T2 - Verfahren und system für adaptive verteilte spracherkennung

Info

Publication number: DE60127550T2
Application number: DE60127550T
Authority: DE
Inventors: Ramalingam Hariharan
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2000-06-08
Filing date: 2001-05-02
Publication date: 2007-12-06
Anticipated expiration: 2021-05-03
Also published as: EP1290678A1; DE60127550D1; WO2001095312A1; AU2001250591A1; ATE358316T1; EP1290678B1

Description

Gebiet der Erfindung
Die Erfindung bezieht sich im Allgemeinen auf das Gebiet der Spracherkennung und insbesondere auf Systeme und Methodik verteilter Spracherkennung.
Hintergrund der Erfindung
Spracherkennungstechnologie gestattet einem Benutzer eines Kommunikationsnetzwerks, auf Computerdienste zuzugreifen, ohne eine Tastatur zu verwenden, um Wörter einzutasten, während ein System gesprochener Sprache eine Benutzer-Computer-Interaktion bereitstellt, die natürliche Konversationen zwischen Menschen und Maschinen ermöglicht. Insbesondere gestatten Systeme verteilter Spracherkennung (DSR: "Distributed Speech Recognition") einem Benutzer, einen verbalen bzw. mündlichen Befehl zu erteilen oder einen Vermerk an eine Sprachverarbeitungsvorrichtung an einem Ort zu diktieren und die gesprochenen Wörter, die von einer Spracherkennungseinrichtung in geschriebene Texte umgesetzt werden, an einem anderen Ort zur Verfügung zu haben. Zum Beispiel kann der Benutzer in eine drahtlose Vorrichtung wie etwa ein Mobiltelefon sprechen, aber wird die Sprache bzw. Stimme von einer Netzwerkvorrichtung an einem entfernten Ort wiederhergestellt. Eine der aufkommenden Anwendungen von DSR ist ein Sprach-Browser oder ein Browser gemäß drahtlosem Anwendungsprotokoll (WAP: "Wireless Application Protocol"), der jedem, der ein Telefon besitzt, einen Zugriff auf Internet-basierte
Dienste gestattet, ohne sich in der Nähe eines Computers zu befinden. DSR hat viele Vorteile. Zum Beispiel beseitigt eine Sprachinteraktion das Erfordernis, ein Tastenfeld an einer mobilen Vorrichtung zu haben, wo physikalischer Platz für Tastenfelder und Anzeigen begrenzt ist.
Ein DSR-System wird grob in einen Vorderende- bzw. Front-End-Abschnitt und einen Hinterende- bzw. Back-End-Abschnitt unterteilt. Der Vorderende-Algorithmus wandelt das eingegebene Sprachwellenformsignal in Merkmalsparameter um, die eine kompakte Darstellung von eingegebener Sprache bereitstellen, während die für eine Spracherkennung wesentlichen Informationen bewahrt werden. Der Hinterende-Algorithmus führt die eigentliche Erkennungsaufgabe durch, wobei Merkmalsparameter als Eingabe genommen werden und ein Vorlagenabgleichbetrieb durchgeführt wird, um die Merkmale mit Referenzvorlagen der möglichen Wörter zu vergleichen, die zu erkennen sind.
Bei einer herkömmlichen automatischen Spracherkennung (ASR: „Automatic Speech Recognition") befindet sich sowohl das Vorderende als auch das Hinterende an dem Spracherkennungsserver, auf den über eine Sprachverbindung des öffentlichen Telefonnetzes (PSTN) zugegriffen wird. Kommt das Sprachsignal von einem Mobiltelefonbenutzer, kann sich aus Sprachcodierungsungenauigkeiten und Funkübertragungsfehlern eine erhebliche Verschlechterung einer Spracherkennungsgenauigkeit ergeben. Werden die Erkennungsergebnisse von ASR verwendet, um einen Dienst anzusteuern, der Daten an das Benutzerendgerät zurückgibt, sind außerdem separate Sprach- und Datenverbindungen zwischen dem Benutzerendgerät und dem Dienst erforderlich.
DSR löst diese Probleme von ASR, indem das Vorderende an dem Benutzerendgerät angeordnet wird und Merkmalsparameter anstelle der codierten Sprachwellenform an den ASR-Server übertragen werden. Üblicherweise erfordern Merkmalsparameter weniger Bandbreite für eine Funkübertragung als die codierte Sprachwellenform. Die Merkmalsparameter können daher unter Verwendung eines Datenkanals an den ASR-Server gesendet werden. Dies wird das Erfordernis nach einem Sprachkanal hoher Bitrate beseitigen. Außerdem wird eine Datenübertragung niedriger Rate im Vergleich zu einer Sprachkanalübertragung weniger durch Rauschen und Verzerrung beeinträchtigt. Ist der Datenkanal mit einer Fehlerkorrekturcodierung ausgestattet, sind außerdem die Funkschnittstellenfehler kein Problem mehr. Die Vollduplex-Datenverbindung, die zum Übertragen der Merkmale an den ASR-Server verwendet wird, kann zum Senden der Antwortdaten (oder der codierten Sprache) von dem ASR-Server an das Benutzerendgerät verwendet werden.
Während DSR die Probleme mit einer reduzierten ASR-Erkennungsgenauigkeit löst und nur eine Datenverbindung für Sprache und Daten benötigt, hat sie den Nachteil, dass ein standardisierter Algorithmus zur Berechnung von Merkmalsparametern vorhanden sein muss. Das Europäische Institut für Telekommunikationsstandards (ETSI) befindet sich gegenwärtig im Prozess einer Erstellung des Standards für eine DSR-Signalverarbeitung. Das ETSI hat in ETSI ES 201 108 V1.1.2 einen Standardalgorithmus für eine Vorderende-Merkmalsextraktion und deren Übertragung veröffentlicht. Der Standardalgorithmus berechnet Merkmalsvektoren mit vierzehn Komponenten für jeden 10 ms-Sprachrahmen. Insbesondere deckt diese ETSI-Veröffentlichung den Algorithmus für eine Vorderende-Merkmalsextraktion ab, um Mel-Frequenz-Cepstralkoeffizienten (MFCC) zu erzeugen.
Ein weiterer Nachteil der vorliegenden DSR-Methodik besteht darin, dass der ASR-Server in der Lage sein muss, die von dem standardmäßigen Vorderende kommenden Merkmale zu empfangen und zu verwenden. Daher werden ASR-Anbieter, um DSR zu unterstützen, ihre ASR-Engines bzw. -Maschinen dahingehend modifizieren müssen, dass sie die DSR-Merkmale aufnehmen. Abhängig von der verwendeten Technologie kann dies ein geringfügiges Unterfangen oder eine technische Herausforderung sein. Werden die Merkmalsvektoren unter Verwendung der vierzehn Komponenten für jeden 10 ms-Sprachrahmen an den ASR-Server gesendet, wäre die resultierende Bitrate unter der Annahme von Gleitkommakoeffizienten und keinem Rahmenbildungsoverhead 44,8 kbps. Diese Bitrate ist für zellulare Datenkanäle eindeutig zu hoch. Aus diesem Grund umfasst der ETSI-Standard auch einen Merkmalskomprimierungsalgorithmus, um einen effizienten Weg bereitzustellen, die Koeffizienten mit einer niedrigeren Datenübertragungsrate zu übertragen. Dieser Komprimierungsalgorithmus kombiniert 24 Merkmalsvektoren, von denen jeder aus einem 10 ms-Sprachrahmen berechnet wird, in einem Mehrfachrahmen mit 143 Bytes. Dies ergibt eine Bitrate von ungefähr 4767 bps. Die ETSI-Veröffentlichung umfasst auch die Formatierung der extrahierten Merkmale mit einer Fehlersicherung in einen Bitstrom für Übertragungen, sowie die Decodierung des Bitstroms, um die Vorderende-Merkmale an einem Hinterende-Empfänger zusammen mit dem zugehörigen Algorithmus für eine Kanalfehlerminderung zu erzeugen. Nokia ETSI-STQ WI008 offenbart ebenfalls einen Vorderende-Algorithmus für eine Merkmalsvektorextraktion. Cepstrum ist ein Ausdruck für die inverse Fouriertransformation des Logarithmus des Leistungsspektrums eines Signals und Mel-Frequenz-Warping bzw. -Verformung ist ein Prozess zum nichtlinearen Modifizieren des Maßstabs der Fouriertransformationsdarstellung des Spektrums. Aus der Mel-Frequenz-verformten Fouriertransformationsdarstellung des Log-Größe-Spektrums wird eine Menge von Cepstralkoeffizienten oder -parametern berechnet, um die Sprachsignale zu repräsentieren. Die extrahierten Cepstralkoeffizienten oder -parameter sind als Merkmalsvektoren bekannt. Sie werden an die Hinterende-Erkennungseinrichtung übermittelt, um die eigentliche Wahrscheinlichkeitsschätzung und Klassifikation durchzuführen, um die gesprochenen Wörter zu rekonstruieren. Da unterschiedliche Sprecher unterschiedliche Stimmen, Sprechgeschwindigkeiten, Akzente und andere Faktoren haben, die ein Spracherkennungssystem beeinträchtigen können, ist es wichtig, Merkmalsvektoren von guter Qualität zu haben, um eine gute Leistung bei einer Spracherkennung sicherzustellen. Außerdem können auch Umgebungsgeräusche und Verzerrungen die Qualität von Merkmalsvektoren verschlechtern und die Leistung des Spracherkennungssystems beeinflussen.
Das US-Patent Nr. 5,956,683 offenbart ein DSR-System, bei dem extrahierte Merkmale von einem tragbaren Telefon an eine zentrale Kommunikationsstelle übertragen werden, die einen Wortdecodierer zum Bestimmen einer linguistischen Schätzung der Sprache aus den extrahierten Merkmalen und zum Bereitstellen eines Aktionssignals an einen Sender in der Kommunikationsstelle aufweist. Einem Steuerelement der Kommunikationsstelle unterliegend sendet der Sender geschätzte Wörter oder ein Befehlssignal an das tragbare Telefon. Die geschätzten Wörter oder das Befehlssignal werden zum Wählen einer Telefonnummer, zum Bereitstellen von Informationen auf den Anzeigeschirm des tragbaren Telefons oder zum Weiterleiten von Nachrichten von einem Anrufbeantworter verwendet.
Die Leistungsfähigkeit eines Spracherkennungssystems korreliert im Allgemeinen erheblich mit der Anzahl von Merkmalen, die von dem Vorderende extrahiert und von dem Hinterende verarbeitet werden. Daher ist es wünschenswert, die Menge von Merkmalen zu erhöhen, die in dem Vorderende extrahiert werden, um die Leistungsfähigkeit zu erhöhen. Dies erhöht jedoch auch die Komplexitäten in der Hinterende-Erkennungseinrichtung, die sich auf der Serverseite befindet, weil die Erkennungseinrichtung alle empfangenen Merkmale zu verarbeiten hat. Insbesondere bei einem DSR-System, bei dem eine Hinterende-Netzwerk-Erkennungseinrichtung verwendet wird, um die Sprachdaten von einer Vielzahl von Endgeräten zu verarbeiten, erlegt die Verarbeitungsleistung und -zeit der Hinterende-Erkennungseinrichtung der Menge von extrahierten Merkmalen, die von jedem Endgerät übertragen werden können, um gleichzeitig verarbeitet zu werden, eine Begrenzung auf. Bei dem bestehenden DSR-System ist die Menge von extrahierten Merkmalen festgelegt und üblicherweise durch die maximale Anzahl von Endgeräten bestimmt, die sich eine Hinterende-Erkennungseinrichtung teilen werden. In einem solchen System wird das voreingestellte Niveau der Spracherkennungsleistung basierend auf der Verkehrsbedingung des schlimmsten Falls an der Hinterende-Erkennungseinrichtung bestimmt. Als solches wird die höchste erreichbare Leistung üblicherweise nicht vollständig erreicht.
Es ist vorteilhaft und wünschenswert, ein DSR-System mit einer verbesserten Leistungsfähigkeit bereitzustellen, so dass die Leistungsfähigkeit des Spracherkennungssystems über die Grenze, die sich von einer Analyse des schlimmsten Falls ableitet, hinaus ausgebaut werden kann.
Kurzfassung der Erfindung
Es ist eine Aufgabe der Erfindung, ein Verfahren und ein System einer adaptiven oder skalierbaren verteilten Spracherkennung (DSR) bereitzustellen, wobei die Menge der sprachbezogenen Merkmale, die von einer Vorderende-Vorrichtung aus einem Sprechsignal extrahiert werden, im Einklang mit den vorherrschenden Verkehrsbedingungen der Hinterende-Erkennungseinrichtung in einem Netzwerk variiert werden kann.
Dementsprechend ist ein Aspekt der Erfindung ein Verfahren für eine verteilte Spracherkennung, wie in Anspruch 1 dargelegt.
Ein weiterer Aspekt der Erfindung ist ein verteiltes Spracherkennungssystem, wie in Anspruch 10 dargelegt. Der dritte Aspekt der Erfindung ist ein verteiltes Spracherkennungssystem, wie in Anspruch 18 dargelegt.
Die Erfindung wird beim Lesen der Beschreibung in Verbindung mit 1 bis 3 deutlich.
Kurze Beschreibung der Abbildungen
1 ist eine schematische Darstellung eines Kommunikationsnetzwerks, das eine Vielzahl von drahtlosen Endgeräten zeigt, die mit einem Server gekoppelt sind, um so einer Vielzahl von Vorderende-Vorrichtungen zu ermöglichen, sich eine Hinterende-Vorrichtung an dem Server zu teilen.
2 ist ein Blockschaltbild, das ein DSR-(„Distributed Speech Recognition") System mit einem Vorderende-Abschnitt und einem Hinterende-Abschnitt veranschaulicht.
3 ist ein Ablaufdiagramm, das das DSR-Verfahren gemäß der Erfindung veranschaulicht.
Beste Art zur Ausführung der Erfindung
1 zeigt ein Kommunikationsnetzwerk 10 mit einer Vielzahl von Endgeräten 12, die mit einem Server 18 gekoppelt sind. Die Endgeräte 12 können Mobiltelefone oder andere drahtlose oder drahtgebundene Vorrichtungen sein. Jedes der Endgeräte 12 weist eine Sprecheingabevorrichtung wie etwa ein Mikrofon 16 auf, um es einem Benutzer zu ermöglichen, in die Endgeräte 12 verbale bzw. mündliche Befehle zu erteilen oder gesprochene Nachrichten einzugeben. Die gesprochene Sprache bzw. Stimme des Sprechers wird von dem Mikrofon 16 in Sprechsignale umgewandelt. Jedes der Endgeräte 12 umfasst einen Vorderende-Prozessor 20, der auf ein Sprechsignal von einem solchen Mikrofon 16 anspricht, um Merkmalsvektoren und/oder andere sprachbezogene Informationen aus den Sprechsignalen zu extrahieren. Die extrahierten Merkmale werden als Sprachdaten 22 an eine Hinterende-Spracherkennungsvorrichtung 40 übermittelt, die sich auf der Serverseite befindet. Der Vorderende-Prozessor 20 ist derart konfigurierbar, dass er in der Lage ist, je nach Bedarf Sprachdaten mit unterschiedlichen Komplexitäten zu erzeugen. Der Vorderende-Prozessor 20 kann zum Beispiel jederzeit konfiguriert werden, mehr oder weniger sprachbezogene Merkmale aus einem Sprachrahmen zu extrahieren. Wird die Spracherkennungseinrichtung 40 gleichzeitig verwendet, um die Sprachdaten von einer großen Anzahl von Endgeräten 12 zu verarbeiten, kann die Spracherkennungseinrichtung 40 erfordern, dass die Endgeräte 12 die Komplexität bei der Merkmalsextraktion reduzieren, um den Kanalverkehrsbedingungen an der Spracherkennungseinrichtung 40 Rechnung zu tragen. Dementsprechend sendet der Server 18 ein Steuerdaten 24 enthaltendes Signal an die Endgeräte 12, welches die optimale Menge von Merkmalsvektoren unter der vorherrschenden Verkehrsbedingung angibt. Bei Empfang von Steuerdaten 24 von dem Server 18 passen die Endgeräte 12 die extrahierte Menge von Sprachmerkmalen wie gefordert an. Ist der Kanalverkehr jedoch leicht, kann die Spracherkennungseinrichtung 40 Sprachdaten mit einer höheren Komplexität verarbeiten, um die DSR-Leistungsfähigkeit zu verbessern. Dementsprechend sendet die Spracherkennungseinrichtung 40 einen neuen Satz von Steuerdaten 24 an die beteiligten Endgeräte 12, um die Menge der zu extrahierenden Sprachmerkmale festzulegen.
Dieses adaptive oder skalierbare DSR-System kann dem Benutzer helfen, auf Kosten einer höheren Komplexität eine bessere Spracherkennungsleistung zu erhalten, wenn eine kleinere Anzahl von Endgeräten 12 vorhanden ist, die gleichzeitig auf die Spracherkennungseinrichtung 40 an dem Server 18 zugreifen. Ein weiteres Kriterium, das verwendet werden kann, um die Menge von extrahierten Merkmalen zu bestimmen, ist die vorherrschende Umgebungsbedingung oder das Signal-Rausch-Verhältnis (SNR: „Signal-to-Noise Ratio") auf der Endgeräteseite. Es ist selbstverständlich, dass eine sauberere Umgebung einen kleineren Satz von extrahierten Merkmalen erfordert, ohne die Spracherkennungsleistung übermäßig zu beeinträchtigen. Ein kleinerer Satz von Merkmalsvektoren kann die Gesamtkomplexität des Erkennungsprozesses und dadurch die Berechnungszeit in dem Hinterende-Abschnitt senken.
2 zeigt die Vorderende-Vorrichtung 20 und die Hinterende-Vorrichtung 40 der adaptiven DSR-Vorrichtung gemäß der Erfindung. Wie gezeigt umfasst die Vorderende-Vorrichtung 20 einen Empfänger 30, um Sprechsignale von der Sprecheingabevorrichtung 16 zu empfangen, und einen Vorderende-Sprachprozessor 32, um Merkmalsvektoren aus den Sprechsignalen zu extrahieren und die extrahierten Merkmale an einen Datenkanal 34 zu übermitteln. Die sprachbezogenen extrahierten Merkmale werden als Sprachdaten 22 zur weiteren Verarbeitung an die Hinterende-Vorrichtung 40 übermittelt. Die Hinterende-Vorrichtung 40 umfasst einen Sprachdatenempfänger 42, um Sprachdaten 22 von einer Vielzahl von Endgeräten 12 zu empfangen, und eine Hinterende-Spracherkennungseinrichtung 44, die Sprachdaten 22 in Wörter oder Texte 46 umwandelt. Die Hinterende-Vorrichtung 40 umfasst weiterhin eine Verkehrsüberwachungsvorrichtung 48, um die Arbeitslast bzw. Auslastung der Hinterende-Spracherkennungseinrichtung 44 gemäß der Anzahl von gleichzeitigen Benutzern und der Komplexität der Sprachdaten 22, wie sie von den beteiligten Endgeräten 12 empfangen werden, zu bestimmen. Die Verkehrsüberwachungsvorrichtung 48 liefert eine Signalmeldung der aktuellen Arbeitslast bzw. Auslastung der Hinterende-Spracherkennungseinrichtung 44 an eine Entscheidungseinrichtung 49. Die Entscheidungseinrichtung kann entscheiden, dass das Hinterende seine Kapazität erreicht hat, selbst wenn mehr Benutzer gerade versuchen, für Sprachverarbeitungsdienste auf die Hinterende-Vorrichtung 40 zuzugreifen. Dementsprechend bestimmt die Entscheidungseinrichtung 49 eine reduzierte Menge von Merkmalen, die von dem Vorderende-Prozessor 32 zu extrahieren sind, unter der vorherrschenden Verkehrsbedingung. Die hergeleitete Menge von extrahierten Merkmalen wird dann von der Entscheidungseinrichtung an eine Steuerdatenvorrichtung 50 signalisiert, die Steuerdaten 24 an die Vorderende-Vorrichtung 20 übermittelt. Die Steuerdaten 24 können in Form von Steuerbits oder in jeder geeigneten Form übermittelt werden.
Ist der Kanalverkehr auf der Serverseite gering, ist es in ähnlicher Weise möglich, die Menge von extrahierten Merkmalen zu erhöhen, um die Spracherkennungsleistung zu verbessern, besonders wenn die vorherrschenden Umgebungsrauschbedingungen auf der Endgeräteseite die Erkennungsaufgabe beeinträchtigen können. Dementsprechend wird eine geeignete Menge von extrahierten Merkmalen als die Steuerdaten 24 an die Vorderende-Vorrichtung 20 der beteiligten Endgeräte 12 übermittelt. Auf der Vorderendeseite übermittelt eine Empfangsvorrichtung 36 die empfangenen Steuerdaten 24 an den Vorderende-Sprachprozessor 32, so dass die Menge von extrahierten Merkmalen wie gefordert angepasst werden kann.
Das Verfahren der adaptiven DSR gemäß der Erfindung ist gemäß 3 veranschaulicht. Wie gezeigt werden, wenn ein oder mehrere Benutzer in die Endgeräte 12 sprechen, um den Server 18 zur Durchführung einer bestimmten Aufgabe anzufragen, die Sprach- oder Sprechsignale in Schritt 102 an die Vorderende-Vorrichtung 20 übermittelt. Gemäß der Menge von extrahierten Merkmalen, die aktuell von der Hinterende-Vorrichtung 40 gefordert wird, extrahiert die Vorderende-Vorrichtung 20 in Schritt 104 einen Satz von Merkmalsvektoren aus den Sprechsignalen. Die extrahierten Merkmale werden in Schritt 106 zur Spracherkennung an die Hinterende-Vorrichtung übertragen. Basierend auf den vorherrschenden Bedingungen, wie etwa den Kanalverkehrsbedingungen auf der Serverseite und Umgebungsrauschbedingungen auf der Benutzerseite, wird in Schritt 108 die Menge von extrahierten Merkmalen abgerufen. Wird entschieden, dass die Menge von extrahierten Merkmalen zu hoch ist, werden die Endgeräte 12 in Schritt 110 aufgefordert, die extrahierte Menge zu reduzieren. Ist die extrahierte Menge akzeptabel, werden die Endgeräte 12 in Schritt 112 aufgefordert, die aktuelle extrahierte Menge beizubehalten. Dieser Schritt ist jedoch optional, weil er sich nicht auf den Ausgang bzw. das Ergebnis des Prozesses auswirkt. Ermöglichen die vorherrschenden Bedingungen eine erhöhte Menge von extrahierten Merkmalen, werden die Endgeräte 12 in Schritt 114 aufgefordert, die Menge entsprechend anzupassen. Das Befehlssignal, das die geforderte Menge für eine Merkmalsextraktion festlegt, wird an die Vorderende-Vorrichtung 20 gesendet, wenn der Prozess zu Schritt 104 zurückschleift.
Somit wurden das Verfahren, die Vorrichtung und das System für die adaptive verteilte Spracherkennung gemäß der Erfindung in den bevorzugten Ausführungsbeispielen dieser offenbart. Es wird für einen Fachmann selbstverständlich sein, dass die vorstehenden und verschiedene weitere Änderungen, Weglassungen und Abweichungen die Gestalt und Einzelheiten von diesen vorgenommen werden können, ohne von dem Umfang von dieser Erfindung abzuweichen. Zum Beispiel ist der am häufigsten verwendete Ansatz zur Durchführung der Merkmalsextraktion der Cepstral-Ansatz und sind die extrahierten Merkmalsvektoren die Mel-Frequenz-Cepstral-Koeffizienten. Das Verfahren, die Vorrichtung und das System für eine adaptive Spracherkennung gemäß der Erfindung sind jedoch nicht auf den Cepstral-Ansatz beschränkt. Sie sind gleichermaßen auf jeden anderen Spracherkennungsansatz anwendbar. Außerdem hängt die Komplexität der Vorderende-Merkmalsextraktion bei dem Cepstral-Ansatz davon ab, wie die Sprachsignale abgetastet werden, wie die schnelle Fouriertransformation durchgeführt wird, wie das transformierte Spektrum verarbeitet wird und wie die Mel-Frequenz-Cebstrum-Koeffizienten berechnet werden. Es ist möglich, die Menge von extrahierten Merkmalsvektoren zu erhöhen oder zu verringern, indem die verschiedenen Verarbeitungsschritte in dem Cebstrum-Ansatz angepasst werden. Es ist auch möglich, die Komplexität der Merkmalsextraktion anzupassen, indem der Cebstrum-Ansatz durch einen anderen unterschiedlichen Ansatz ersetzt wird.
Die Kommunikationsendgeräte, wie sie hierin vorstehend verwendet werden, um die Erfindung zu erläutern, umfassen Mobiltelefone, Kommunikatoren bzw. Communicators und andere tragbare bzw. Hand-Vorrichtungen. Die Endgeräte können jedoch alle beliebige Kommunikationsvorrichtungen sein, die physikalisch getrennt von dem Server sind, so dass sie ein verteiltes Spracherkennungssystem für eine Sprachsignalverarbeitung erfordern. In einem engen Sinne ist der Server ein Server einer automatischen Spracherkennung (ASR). In einem breiten Sinne kann er allgemein als eine zentrale Kommunikationsstelle bezeichnet werden. Die Endgeräte können mit dem Server über eine Funkstrecke gekoppelt sein, aber sie können mit dem Server auch über ein anderes Medium verbunden sein.
Folglich sollen die hierin vorstehend beschriebenen Ausführungsbeispiele und Verfahren als veranschaulichend, aber nicht als einschränkend betrachtet werden. Die Erfindung ist durch die anhängenden Ansprüche definiert.

Claims

Verfahren für eine verteilte Spracherkennung, das in einem Kommunikationsnetzwerk mit zumindest einem Server (18), der mit einer Vielzahl von Endgeräten (12) gekoppelt ist, verwendbar ist, wobei das Spracherkennungsverfahren verwendet wird, um aus an die Endgeräte (12) übermittelten Sprechsignalen Wörter zu erkennen, mit den Schritten: 1) Extrahieren (104) von Sprachmerkmalen aus den Sprechsignalen; und 2) Übertragen (106) der extrahierten Sprachmerkmale an den Server (18), um aus diesen Wörtern zu erkennen, dadurch gekennzeichnet, dass die Menge der extrahierten Sprachmerkmale basierend auf vorherrschenden Bedingungen, die eine Spracherkennung beeinflussen, angepasst werden kann (108, 110, 112, 114).
Verfahren gemäß Anspruch 1, bei dem die Endgeräte eine Einrichtung aufweisen, um die Sprachmerkmale zu extrahieren, und der Server eine Einrichtung aufweist, um die Menge von Sprachmerkmalen, die von den Endgeräten zu extrahieren sind, basierend auf den vorherrschenden Bedingungen zu bestimmten, mit dem weiteren Schritt: 3) Übermitteln eines Befehlssignals von dem Server an die Endgeräte, um die Menge von Sprachmerkmalen anzupassen, die von den Endgeräten zu extrahieren sind.
Verfahren gemäß Anspruch 2, bei dem das Befehlssignal Steuerbits umfasst, die für die angepasste Menge von extrahierten Sprachmerkmalen bezeichnend sind.
Verfahren gemäß Anspruch 1, bei dem die vorherrschenden Bedingungen durch die Anzahl von Endgeräten bestimmt werden, die das extrahierte Sprachmerkmal zur Spracherkennung gleichzeitig an den Server übertragen.
Verfahren gemäß Anspruch 1, bei dem die vorherrschenden Bedingungen durch Umgebungsrauschbedingungen an den Endgeräten bestimmt werden.
Verfahren gemäß Anspruch 1, bei dem die extrahierten Sprachmerkmale Cepstralkoeffizienten umfassen.
Verfahren gemäß Anspruch 1, bei dem die extrahierten Sprachmerkmale Mel-Frequenz-Cepstralkoeffizienten umfassen.
Verfahren gemäß Anspruch 1, bei dem die Endgeräte Mobiltelefone umfassen, von denen jedes über eine Funkverbindung mit dem Server gekoppelt ist.
Verfahren gemäß Anspruch 1, bei dem die extrahierten Sprachmerkmale über einen Datenkanal an den Server übertragen werden.
Verteiltes Spracherkennungssystem, das für eine Spracherkennungsverarbeitung in einem Netzwerk mit zumindest einem Server (18), der mit einer Vielzahl von Endgeräten (12) gekoppelt ist, verwendbar ist, wobei das System aufweist: eine Vorderendevorrichtung (20), befindlich an einem oder mehreren der Endgeräte (12), die eingerichtet ist zum Extrahieren von Sprachmerkmalen aus an die Endgeräte übermittelten Sprechsignalen; eine Hinterendevorrichtung (40), befindlich an dem Server (18), die eingerichtet ist zum Erkennen von Wörtern aus den extrahierten Sprachmerkmalen, dadurch gekennzeichnet, dass die Vorderendevorrichtung (20) konfigurierbar ist, so dass die Menge der von der Vorderendevorrichtung (20) extrahierten Sprachmerkmale von dem Server (18) abhängig von vorherrschenden Bedingungen, die die Spracherkennungsverarbeitung beeinflussen, gesteuert werden kann.
System gemäß Anspruch 10, zusätzlich mit einer Einrichtung zum Umwandeln einer Stimme eines Benutzers in Sprechsignale.
System gemäß Anspruch 11, wobei die Stimmenumwandlungseinrichtung ein Mikrofon aufweist.
System gemäß Anspruch 10, bei dem die Endgeräte ein oder mehrere Mobiltelefone aufweisen, von denen jedes über eine Funkverbindung mit dem Server gekoppelt ist.
System gemäß Anspruch 10, bei dem die Vorderendevorrichtung eine Einrichtung zum Übertragen der extrahierten Sprachmerkmale an die Hinterendevorrichtung aufweist.
System gemäß Anspruch 10, bei dem die Hinterendevorrichtung eine Einrichtung zum Überwachen der vorherrschenden Bedingungen aufweist.
System gemäß Anspruch 10, bei dem die vorherrschenden Bedingungen Kanalverkehr an der Hinterendevorrichtung umfassen.
System gemäß Anspruch 10, bei dem die Hinterendevorrichtung fähig ist zum Senden eines Signals an die Vorderendevorrichtung, um die Menge von Sprachmerkmalen anzupassen, die von der Vorderendevorrichtung zu extrahieren sind.
Verteiltes Spracherkennungssystem, das in einem Netzwerk mit zumindest einem Server (18), der mit einer Vielzahl von Endgeräten (12) gekoppelt ist, verwendbar ist, wobei das System verwendet wird, um aus an die Endgeräte (12) übermittelten Sprechsignalen Wörter zu erkennen, mit: einer Vorderendevorrichtung (20), befindlich an jedem der Endgeräte (12), die eingerichtet ist zum Extrahieren einer Menge von Sprachmerkmalen aus dem Sprechsignal, dadurch gekennzeichnet, dass die Menge von extrahierten Sprachmerkmalen anpassbar ist; einer Hinterendevorrichtung (40), befindlich an dem Server (18), die eingerichtet ist zum Erkennen von Wörtern aus den extrahierten Sprachmerkmalen; einer Einrichtung zum Übermitteln der extrahierten Merkmale von der Vorderendevorrichtung (20) an die Hinterendevorrichtung (40), und einer Einrichtung zum Übermitteln eines Befehlssignals von dem Server (18) an die Vorderendevorrichtung (20), das die Menge von Sprachmerkmalen bezeichnet, die von der Vorderendevorrichtung (20) zu extrahieren sind.
System gemäß Anspruch 18, bei dem die Menge von zu extrahierenden Sprachmerkmalen wie in dem Befehlssignal bezeichnet von dem Server basierend auf vorherrschenden Bedingungen bestimmt wird, die die Hinterendevorrichtung beeinflussen.
System gemäß Anspruch 19, bei dem die vorherrschenden Bedingungen Kanalverkehrsbedingungen bezüglich der Anzahl von Endgeräten umfassen, die zu Spracherkennungszwecken gleichzeitig auf die Hinterendevorrichtungen zugreifen.
System gemäß Anspruch 18, bei dem die Menge von zu extrahierenden Sprachmerkmalen wie in dem Befehlssignal bezeichnet von dem Server basierend auf vorherrschenden Umgebungsrauschbedingungen bestimmt wird, die die Vorderendevorrichtung beeinflussen.
Vorderendevorrichtung (20) zur Verwendung in einem Mobilendgerät (12), mit: einem Prozessor, der auf ein Sprechsignal anspricht, um aus an das Endgerät (12) übermittelten Sprechsignalen Sprachmerkmale für eine Spracherkennung zu extrahieren, und um die extrahierten Merkmale von dem Endgerät (12) zu übermitteln, wobei der Prozessor eingerichtet ist, die Menge der extrahierten Sprachmerkmale in Erwiderung auf ein von dem Endgerät (12) empfangenes Befehlssignal anzupassen.
Hinterendevorrichtung (40) zur Verwendung an einem Server (18), mit: einer Erkennungseinrichtung, die konfiguriert ist, um aus extrahierten Sprachmerkmalen Wörter zu erkennen, und einer Entscheidungseinrichtung, die konfiguriert ist, um eine Menge der extrahierten Sprachmerkmale abhängig von vorherrschenden Bedingungen zu steuern, die eine Spracherkennungsverarbeitung beeinflussen.