-
Gebiet der Erfindung
-
Die
Erfindung bezieht sich im Allgemeinen auf das Gebiet der Spracherkennung
und insbesondere auf Systeme und Methodik verteilter Spracherkennung.
-
Hintergrund der Erfindung
-
Spracherkennungstechnologie
gestattet einem Benutzer eines Kommunikationsnetzwerks, auf Computerdienste
zuzugreifen, ohne eine Tastatur zu verwenden, um Wörter einzutasten,
während
ein System gesprochener Sprache eine Benutzer-Computer-Interaktion
bereitstellt, die natürliche
Konversationen zwischen Menschen und Maschinen ermöglicht.
Insbesondere gestatten Systeme verteilter Spracherkennung (DSR: "Distributed Speech
Recognition") einem
Benutzer, einen verbalen bzw. mündlichen
Befehl zu erteilen oder einen Vermerk an eine Sprachverarbeitungsvorrichtung
an einem Ort zu diktieren und die gesprochenen Wörter, die von einer Spracherkennungseinrichtung
in geschriebene Texte umgesetzt werden, an einem anderen Ort zur
Verfügung
zu haben. Zum Beispiel kann der Benutzer in eine drahtlose Vorrichtung
wie etwa ein Mobiltelefon sprechen, aber wird die Sprache bzw. Stimme
von einer Netzwerkvorrichtung an einem entfernten Ort wiederhergestellt.
Eine der aufkommenden Anwendungen von DSR ist ein Sprach-Browser
oder ein Browser gemäß drahtlosem
Anwendungsprotokoll (WAP: "Wireless
Application Protocol"),
der jedem, der ein Telefon besitzt, einen Zugriff auf Internet-basierte
-
Dienste
gestattet, ohne sich in der Nähe
eines Computers zu befinden. DSR hat viele Vorteile. Zum Beispiel
beseitigt eine Sprachinteraktion das Erfordernis, ein Tastenfeld
an einer mobilen Vorrichtung zu haben, wo physikalischer Platz für Tastenfelder und
Anzeigen begrenzt ist.
-
Ein
DSR-System wird grob in einen Vorderende- bzw. Front-End-Abschnitt und
einen Hinterende- bzw. Back-End-Abschnitt
unterteilt. Der Vorderende-Algorithmus wandelt das eingegebene Sprachwellenformsignal
in Merkmalsparameter um, die eine kompakte Darstellung von eingegebener Sprache
bereitstellen, während
die für
eine Spracherkennung wesentlichen Informationen bewahrt werden.
Der Hinterende-Algorithmus führt
die eigentliche Erkennungsaufgabe durch, wobei Merkmalsparameter
als Eingabe genommen werden und ein Vorlagenabgleichbetrieb durchgeführt wird,
um die Merkmale mit Referenzvorlagen der möglichen Wörter zu vergleichen, die zu
erkennen sind.
-
Bei
einer herkömmlichen
automatischen Spracherkennung (ASR: „Automatic Speech Recognition") befindet sich sowohl
das Vorderende als auch das Hinterende an dem Spracherkennungsserver, auf
den über
eine Sprachverbindung des öffentlichen Telefonnetzes
(PSTN) zugegriffen wird. Kommt das Sprachsignal von einem Mobiltelefonbenutzer,
kann sich aus Sprachcodierungsungenauigkeiten und Funkübertragungsfehlern
eine erhebliche Verschlechterung einer Spracherkennungsgenauigkeit ergeben.
Werden die Erkennungsergebnisse von ASR verwendet, um einen Dienst
anzusteuern, der Daten an das Benutzerendgerät zurückgibt, sind außerdem separate
Sprach- und Datenverbindungen zwischen dem Benutzerendgerät und dem
Dienst erforderlich.
-
DSR
löst diese
Probleme von ASR, indem das Vorderende an dem Benutzerendgerät angeordnet
wird und Merkmalsparameter anstelle der codierten Sprachwellenform
an den ASR-Server übertragen
werden. Üblicherweise
erfordern Merkmalsparameter weniger Bandbreite für eine Funkübertragung als die codierte
Sprachwellenform. Die Merkmalsparameter können daher unter Verwendung
eines Datenkanals an den ASR-Server gesendet werden. Dies wird das
Erfordernis nach einem Sprachkanal hoher Bitrate beseitigen. Außerdem wird
eine Datenübertragung
niedriger Rate im Vergleich zu einer Sprachkanalübertragung weniger durch Rauschen und
Verzerrung beeinträchtigt.
Ist der Datenkanal mit einer Fehlerkorrekturcodierung ausgestattet,
sind außerdem
die Funkschnittstellenfehler kein Problem mehr. Die Vollduplex-Datenverbindung,
die zum Übertragen
der Merkmale an den ASR-Server verwendet wird, kann zum Senden der
Antwortdaten (oder der codierten Sprache) von dem ASR-Server an
das Benutzerendgerät
verwendet werden.
-
Während DSR
die Probleme mit einer reduzierten ASR-Erkennungsgenauigkeit löst und nur eine
Datenverbindung für
Sprache und Daten benötigt,
hat sie den Nachteil, dass ein standardisierter Algorithmus zur
Berechnung von Merkmalsparametern vorhanden sein muss. Das Europäische Institut
für Telekommunikationsstandards
(ETSI) befindet sich gegenwärtig
im Prozess einer Erstellung des Standards für eine DSR-Signalverarbeitung.
Das ETSI hat in ETSI ES 201 108 V1.1.2 einen Standardalgorithmus
für eine
Vorderende-Merkmalsextraktion und deren Übertragung veröffentlicht.
Der Standardalgorithmus berechnet Merkmalsvektoren mit vierzehn Komponenten
für jeden 10
ms-Sprachrahmen. Insbesondere deckt diese ETSI-Veröffentlichung
den Algorithmus für
eine Vorderende-Merkmalsextraktion ab,
um Mel-Frequenz-Cepstralkoeffizienten
(MFCC) zu erzeugen.
-
Ein
weiterer Nachteil der vorliegenden DSR-Methodik besteht darin, dass
der ASR-Server in der Lage sein muss, die von dem standardmäßigen Vorderende
kommenden Merkmale zu empfangen und zu verwenden. Daher werden ASR-Anbieter,
um DSR zu unterstützen,
ihre ASR-Engines bzw. -Maschinen dahingehend modifizieren müssen, dass
sie die DSR-Merkmale
aufnehmen. Abhängig
von der verwendeten Technologie kann dies ein geringfügiges Unterfangen
oder eine technische Herausforderung sein. Werden die Merkmalsvektoren
unter Verwendung der vierzehn Komponenten für jeden 10 ms-Sprachrahmen
an den ASR-Server
gesendet, wäre
die resultierende Bitrate unter der Annahme von Gleitkommakoeffizienten
und keinem Rahmenbildungsoverhead 44,8 kbps. Diese Bitrate ist für zellulare
Datenkanäle
eindeutig zu hoch. Aus diesem Grund umfasst der ETSI-Standard auch
einen Merkmalskomprimierungsalgorithmus, um einen effizienten Weg
bereitzustellen, die Koeffizienten mit einer niedrigeren Datenübertragungsrate
zu übertragen. Dieser
Komprimierungsalgorithmus kombiniert 24 Merkmalsvektoren, von denen
jeder aus einem 10 ms-Sprachrahmen berechnet wird, in einem Mehrfachrahmen
mit 143 Bytes. Dies ergibt eine Bitrate von ungefähr 4767
bps. Die ETSI-Veröffentlichung umfasst
auch die Formatierung der extrahierten Merkmale mit einer Fehlersicherung
in einen Bitstrom für Übertragungen,
sowie die Decodierung des Bitstroms, um die Vorderende-Merkmale
an einem Hinterende-Empfänger
zusammen mit dem zugehörigen Algorithmus
für eine
Kanalfehlerminderung zu erzeugen. Nokia ETSI-STQ WI008 offenbart
ebenfalls einen Vorderende-Algorithmus für eine Merkmalsvektorextraktion.
Cepstrum ist ein Ausdruck für
die inverse Fouriertransformation des Logarithmus des Leistungsspektrums
eines Signals und Mel-Frequenz-Warping bzw. -Verformung ist ein
Prozess zum nichtlinearen Modifizieren des Maßstabs der Fouriertransformationsdarstellung
des Spektrums. Aus der Mel-Frequenz-verformten Fouriertransformationsdarstellung
des Log-Größe-Spektrums
wird eine Menge von Cepstralkoeffizienten oder -parametern berechnet,
um die Sprachsignale zu repräsentieren.
Die extrahierten Cepstralkoeffizienten oder -parameter sind als
Merkmalsvektoren bekannt. Sie werden an die Hinterende-Erkennungseinrichtung übermittelt,
um die eigentliche Wahrscheinlichkeitsschätzung und Klassifikation durchzuführen, um
die gesprochenen Wörter
zu rekonstruieren. Da unterschiedliche Sprecher unterschiedliche
Stimmen, Sprechgeschwindigkeiten, Akzente und andere Faktoren haben,
die ein Spracherkennungssystem beeinträchtigen können, ist es wichtig, Merkmalsvektoren
von guter Qualität
zu haben, um eine gute Leistung bei einer Spracherkennung sicherzustellen.
Außerdem
können
auch Umgebungsgeräusche
und Verzerrungen die Qualität
von Merkmalsvektoren verschlechtern und die Leistung des Spracherkennungssystems
beeinflussen.
-
Das
US-Patent Nr. 5,956,683 offenbart ein DSR-System, bei dem extrahierte
Merkmale von einem tragbaren Telefon an eine zentrale Kommunikationsstelle übertragen
werden, die einen Wortdecodierer zum Bestimmen einer linguistischen
Schätzung
der Sprache aus den extrahierten Merkmalen und zum Bereitstellen
eines Aktionssignals an einen Sender in der Kommunikationsstelle
aufweist. Einem Steuerelement der Kommunikationsstelle unterliegend
sendet der Sender geschätzte
Wörter
oder ein Befehlssignal an das tragbare Telefon. Die geschätzten Wörter oder
das Befehlssignal werden zum Wählen
einer Telefonnummer, zum Bereitstellen von Informationen auf den
Anzeigeschirm des tragbaren Telefons oder zum Weiterleiten von Nachrichten
von einem Anrufbeantworter verwendet.
-
Die
Leistungsfähigkeit
eines Spracherkennungssystems korreliert im Allgemeinen erheblich mit
der Anzahl von Merkmalen, die von dem Vorderende extrahiert und
von dem Hinterende verarbeitet werden. Daher ist es wünschenswert,
die Menge von Merkmalen zu erhöhen,
die in dem Vorderende extrahiert werden, um die Leistungsfähigkeit
zu erhöhen. Dies
erhöht
jedoch auch die Komplexitäten
in der Hinterende-Erkennungseinrichtung,
die sich auf der Serverseite befindet, weil die Erkennungseinrichtung alle
empfangenen Merkmale zu verarbeiten hat. Insbesondere bei einem
DSR-System, bei
dem eine Hinterende-Netzwerk-Erkennungseinrichtung
verwendet wird, um die Sprachdaten von einer Vielzahl von Endgeräten zu verarbeiten,
erlegt die Verarbeitungsleistung und -zeit der Hinterende-Erkennungseinrichtung
der Menge von extrahierten Merkmalen, die von jedem Endgerät übertragen
werden können, um
gleichzeitig verarbeitet zu werden, eine Begrenzung auf. Bei dem
bestehenden DSR-System ist die Menge von extrahierten Merkmalen
festgelegt und üblicherweise
durch die maximale Anzahl von Endgeräten bestimmt, die sich eine
Hinterende-Erkennungseinrichtung teilen werden. In einem solchen System
wird das voreingestellte Niveau der Spracherkennungsleistung basierend
auf der Verkehrsbedingung des schlimmsten Falls an der Hinterende-Erkennungseinrichtung
bestimmt. Als solches wird die höchste
erreichbare Leistung üblicherweise
nicht vollständig
erreicht.
-
Es
ist vorteilhaft und wünschenswert,
ein DSR-System mit einer verbesserten Leistungsfähigkeit bereitzustellen, so
dass die Leistungsfähigkeit des
Spracherkennungssystems über
die Grenze, die sich von einer Analyse des schlimmsten Falls ableitet,
hinaus ausgebaut werden kann.
-
Kurzfassung der Erfindung
-
Es
ist eine Aufgabe der Erfindung, ein Verfahren und ein System einer
adaptiven oder skalierbaren verteilten Spracherkennung (DSR) bereitzustellen,
wobei die Menge der sprachbezogenen Merkmale, die von einer Vorderende-Vorrichtung aus einem
Sprechsignal extrahiert werden, im Einklang mit den vorherrschenden
Verkehrsbedingungen der Hinterende-Erkennungseinrichtung in einem
Netzwerk variiert werden kann.
-
Dementsprechend
ist ein Aspekt der Erfindung ein Verfahren für eine verteilte Spracherkennung,
wie in Anspruch 1 dargelegt.
-
Ein
weiterer Aspekt der Erfindung ist ein verteiltes Spracherkennungssystem,
wie in Anspruch 10 dargelegt. Der dritte Aspekt der Erfindung ist
ein verteiltes Spracherkennungssystem, wie in Anspruch 18 dargelegt.
-
Die
Erfindung wird beim Lesen der Beschreibung in Verbindung mit 1 bis 3 deutlich.
-
Kurze Beschreibung der Abbildungen
-
1 ist
eine schematische Darstellung eines Kommunikationsnetzwerks, das
eine Vielzahl von drahtlosen Endgeräten zeigt, die mit einem Server
gekoppelt sind, um so einer Vielzahl von Vorderende-Vorrichtungen
zu ermöglichen,
sich eine Hinterende-Vorrichtung an dem Server zu teilen.
-
2 ist
ein Blockschaltbild, das ein DSR-(„Distributed
Speech Recognition")
System mit einem Vorderende-Abschnitt und einem Hinterende-Abschnitt
veranschaulicht.
-
3 ist
ein Ablaufdiagramm, das das DSR-Verfahren gemäß der Erfindung veranschaulicht.
-
Beste Art zur Ausführung der Erfindung
-
1 zeigt
ein Kommunikationsnetzwerk 10 mit einer Vielzahl von Endgeräten 12,
die mit einem Server 18 gekoppelt sind. Die Endgeräte 12 können Mobiltelefone
oder andere drahtlose oder drahtgebundene Vorrichtungen sein. Jedes
der Endgeräte 12 weist
eine Sprecheingabevorrichtung wie etwa ein Mikrofon 16 auf,
um es einem Benutzer zu ermöglichen,
in die Endgeräte 12 verbale
bzw. mündliche Befehle
zu erteilen oder gesprochene Nachrichten einzugeben. Die gesprochene
Sprache bzw. Stimme des Sprechers wird von dem Mikrofon 16 in
Sprechsignale umgewandelt. Jedes der Endgeräte 12 umfasst einen
Vorderende-Prozessor 20, der auf ein Sprechsignal von einem
solchen Mikrofon 16 anspricht, um Merkmalsvektoren und/oder
andere sprachbezogene Informationen aus den Sprechsignalen zu extrahieren.
Die extrahierten Merkmale werden als Sprachdaten 22 an
eine Hinterende-Spracherkennungsvorrichtung 40 übermittelt,
die sich auf der Serverseite befindet. Der Vorderende-Prozessor 20 ist
derart konfigurierbar, dass er in der Lage ist, je nach Bedarf Sprachdaten
mit unterschiedlichen Komplexitäten
zu erzeugen. Der Vorderende-Prozessor 20 kann zum Beispiel
jederzeit konfiguriert werden, mehr oder weniger sprachbezogene
Merkmale aus einem Sprachrahmen zu extrahieren. Wird die Spracherkennungseinrichtung 40 gleichzeitig
verwendet, um die Sprachdaten von einer großen Anzahl von Endgeräten 12 zu
verarbeiten, kann die Spracherkennungseinrichtung 40 erfordern,
dass die Endgeräte 12 die
Komplexität
bei der Merkmalsextraktion reduzieren, um den Kanalverkehrsbedingungen
an der Spracherkennungseinrichtung 40 Rechnung zu tragen.
Dementsprechend sendet der Server 18 ein Steuerdaten 24 enthaltendes
Signal an die Endgeräte 12,
welches die optimale Menge von Merkmalsvektoren unter der vorherrschenden
Verkehrsbedingung angibt. Bei Empfang von Steuerdaten 24 von
dem Server 18 passen die Endgeräte 12 die extrahierte
Menge von Sprachmerkmalen wie gefordert an. Ist der Kanalverkehr
jedoch leicht, kann die Spracherkennungseinrichtung 40 Sprachdaten mit
einer höheren
Komplexität
verarbeiten, um die DSR-Leistungsfähigkeit
zu verbessern. Dementsprechend sendet die Spracherkennungseinrichtung 40 einen
neuen Satz von Steuerdaten 24 an die beteiligten Endgeräte 12,
um die Menge der zu extrahierenden Sprachmerkmale festzulegen.
-
Dieses
adaptive oder skalierbare DSR-System kann dem Benutzer helfen, auf
Kosten einer höheren
Komplexität
eine bessere Spracherkennungsleistung zu erhalten, wenn eine kleinere
Anzahl von Endgeräten 12 vorhanden
ist, die gleichzeitig auf die Spracherkennungseinrichtung 40 an
dem Server 18 zugreifen. Ein weiteres Kriterium, das verwendet werden
kann, um die Menge von extrahierten Merkmalen zu bestimmen, ist
die vorherrschende Umgebungsbedingung oder das Signal-Rausch-Verhältnis (SNR: „Signal-to-Noise
Ratio") auf der
Endgeräteseite.
Es ist selbstverständlich,
dass eine sauberere Umgebung einen kleineren Satz von extrahierten Merkmalen
erfordert, ohne die Spracherkennungsleistung übermäßig zu beeinträchtigen.
Ein kleinerer Satz von Merkmalsvektoren kann die Gesamtkomplexität des Erkennungsprozesses
und dadurch die Berechnungszeit in dem Hinterende-Abschnitt senken.
-
2 zeigt
die Vorderende-Vorrichtung 20 und die Hinterende-Vorrichtung 40 der
adaptiven DSR-Vorrichtung gemäß der Erfindung.
Wie gezeigt umfasst die Vorderende-Vorrichtung 20 einen Empfänger 30,
um Sprechsignale von der Sprecheingabevorrichtung 16 zu
empfangen, und einen Vorderende-Sprachprozessor 32, um
Merkmalsvektoren aus den Sprechsignalen zu extrahieren und die extrahierten
Merkmale an einen Datenkanal 34 zu übermitteln. Die sprachbezogenen
extrahierten Merkmale werden als Sprachdaten 22 zur weiteren
Verarbeitung an die Hinterende-Vorrichtung 40 übermittelt. Die
Hinterende-Vorrichtung 40 umfasst
einen Sprachdatenempfänger 42,
um Sprachdaten 22 von einer Vielzahl von Endgeräten 12 zu
empfangen, und eine Hinterende-Spracherkennungseinrichtung 44, die
Sprachdaten 22 in Wörter
oder Texte 46 umwandelt. Die Hinterende-Vorrichtung 40 umfasst weiterhin
eine Verkehrsüberwachungsvorrichtung 48,
um die Arbeitslast bzw. Auslastung der Hinterende-Spracherkennungseinrichtung 44 gemäß der Anzahl
von gleichzeitigen Benutzern und der Komplexität der Sprachdaten 22,
wie sie von den beteiligten Endgeräten 12 empfangen werden,
zu bestimmen. Die Verkehrsüberwachungsvorrichtung 48 liefert
eine Signalmeldung der aktuellen Arbeitslast bzw. Auslastung der
Hinterende-Spracherkennungseinrichtung 44 an eine Entscheidungseinrichtung 49.
Die Entscheidungseinrichtung kann entscheiden, dass das Hinterende
seine Kapazität erreicht
hat, selbst wenn mehr Benutzer gerade versuchen, für Sprachverarbeitungsdienste
auf die Hinterende-Vorrichtung 40 zuzugreifen.
Dementsprechend bestimmt die Entscheidungseinrichtung 49 eine
reduzierte Menge von Merkmalen, die von dem Vorderende-Prozessor 32 zu
extrahieren sind, unter der vorherrschenden Verkehrsbedingung. Die
hergeleitete Menge von extrahierten Merkmalen wird dann von der
Entscheidungseinrichtung an eine Steuerdatenvorrichtung 50 signalisiert,
die Steuerdaten 24 an die Vorderende-Vorrichtung 20 übermittelt.
Die Steuerdaten 24 können
in Form von Steuerbits oder in jeder geeigneten Form übermittelt
werden.
-
Ist
der Kanalverkehr auf der Serverseite gering, ist es in ähnlicher
Weise möglich,
die Menge von extrahierten Merkmalen zu erhöhen, um die Spracherkennungsleistung
zu verbessern, besonders wenn die vorherrschenden Umgebungsrauschbedingungen
auf der Endgeräteseite
die Erkennungsaufgabe beeinträchtigen
können.
Dementsprechend wird eine geeignete Menge von extrahierten Merkmalen
als die Steuerdaten 24 an die Vorderende-Vorrichtung 20 der
beteiligten Endgeräte 12 übermittelt. Auf
der Vorderendeseite übermittelt
eine Empfangsvorrichtung 36 die empfangenen Steuerdaten 24 an den
Vorderende-Sprachprozessor 32,
so dass die Menge von extrahierten Merkmalen wie gefordert angepasst
werden kann.
-
Das
Verfahren der adaptiven DSR gemäß der Erfindung
ist gemäß 3 veranschaulicht.
Wie gezeigt werden, wenn ein oder mehrere Benutzer in die Endgeräte 12 sprechen,
um den Server 18 zur Durchführung einer bestimmten Aufgabe
anzufragen, die Sprach- oder Sprechsignale in Schritt 102 an die
Vorderende-Vorrichtung 20 übermittelt. Gemäß der Menge
von extrahierten Merkmalen, die aktuell von der Hinterende-Vorrichtung 40 gefordert
wird, extrahiert die Vorderende-Vorrichtung 20 in Schritt 104 einen
Satz von Merkmalsvektoren aus den Sprechsignalen. Die extrahierten
Merkmale werden in Schritt 106 zur Spracherkennung an die
Hinterende-Vorrichtung übertragen.
Basierend auf den vorherrschenden Bedingungen, wie etwa den Kanalverkehrsbedingungen
auf der Serverseite und Umgebungsrauschbedingungen auf der Benutzerseite,
wird in Schritt 108 die Menge von extrahierten Merkmalen
abgerufen. Wird entschieden, dass die Menge von extrahierten Merkmalen
zu hoch ist, werden die Endgeräte 12 in Schritt 110 aufgefordert,
die extrahierte Menge zu reduzieren. Ist die extrahierte Menge akzeptabel,
werden die Endgeräte 12 in
Schritt 112 aufgefordert, die aktuelle extrahierte Menge
beizubehalten. Dieser Schritt ist jedoch optional, weil er sich
nicht auf den Ausgang bzw. das Ergebnis des Prozesses auswirkt. Ermöglichen
die vorherrschenden Bedingungen eine erhöhte Menge von extrahierten
Merkmalen, werden die Endgeräte 12 in
Schritt 114 aufgefordert, die Menge entsprechend anzupassen.
Das Befehlssignal, das die geforderte Menge für eine Merkmalsextraktion festlegt,
wird an die Vorderende-Vorrichtung 20 gesendet, wenn der
Prozess zu Schritt 104 zurückschleift.
-
Somit
wurden das Verfahren, die Vorrichtung und das System für die adaptive
verteilte Spracherkennung gemäß der Erfindung
in den bevorzugten Ausführungsbeispielen
dieser offenbart. Es wird für einen
Fachmann selbstverständlich
sein, dass die vorstehenden und verschiedene weitere Änderungen,
Weglassungen und Abweichungen die Gestalt und Einzelheiten von diesen
vorgenommen werden können,
ohne von dem Umfang von dieser Erfindung abzuweichen. Zum Beispiel
ist der am häufigsten
verwendete Ansatz zur Durchführung
der Merkmalsextraktion der Cepstral-Ansatz und sind die extrahierten Merkmalsvektoren
die Mel-Frequenz-Cepstral-Koeffizienten. Das Verfahren, die Vorrichtung
und das System für
eine adaptive Spracherkennung gemäß der Erfindung sind jedoch
nicht auf den Cepstral-Ansatz beschränkt. Sie sind gleichermaßen auf
jeden anderen Spracherkennungsansatz anwendbar. Außerdem hängt die
Komplexität
der Vorderende-Merkmalsextraktion
bei dem Cepstral-Ansatz davon ab, wie die Sprachsignale abgetastet
werden, wie die schnelle Fouriertransformation durchgeführt wird, wie
das transformierte Spektrum verarbeitet wird und wie die Mel-Frequenz-Cebstrum-Koeffizienten
berechnet werden. Es ist möglich,
die Menge von extrahierten Merkmalsvektoren zu erhöhen oder
zu verringern, indem die verschiedenen Verarbeitungsschritte in
dem Cebstrum-Ansatz angepasst werden. Es ist auch möglich, die
Komplexität
der Merkmalsextraktion anzupassen, indem der Cebstrum-Ansatz durch einen
anderen unterschiedlichen Ansatz ersetzt wird.
-
Die
Kommunikationsendgeräte,
wie sie hierin vorstehend verwendet werden, um die Erfindung zu
erläutern,
umfassen Mobiltelefone, Kommunikatoren bzw. Communicators und andere
tragbare bzw. Hand-Vorrichtungen. Die Endgeräte können jedoch alle beliebige
Kommunikationsvorrichtungen sein, die physikalisch getrennt von
dem Server sind, so dass sie ein verteiltes Spracherkennungssystem
für eine
Sprachsignalverarbeitung erfordern. In einem engen Sinne ist der
Server ein Server einer automatischen Spracherkennung (ASR). In
einem breiten Sinne kann er allgemein als eine zentrale Kommunikationsstelle
bezeichnet werden. Die Endgeräte
können
mit dem Server über
eine Funkstrecke gekoppelt sein, aber sie können mit dem Server auch über ein anderes
Medium verbunden sein.
-
Folglich
sollen die hierin vorstehend beschriebenen Ausführungsbeispiele und Verfahren
als veranschaulichend, aber nicht als einschränkend betrachtet werden. Die
Erfindung ist durch die anhängenden
Ansprüche
definiert.