DE60014583T2

DE60014583T2 - Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte

Info

Publication number: DE60014583T2
Application number: DE60014583T
Authority: DE
Inventors: P. Andrew DEJACO; P. Richard WALTERS; Harinath Garudadri
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-02-08
Filing date: 2000-02-04
Publication date: 2006-03-09
Anticipated expiration: 2020-02-05
Also published as: ATE279003T1; EP1151431A1; KR20010093325A; WO2000046793A1; AU3589500A; HK1043233A1; EP1151431B1; JP5039879B2; DE60014583D1; US20020069064A1; ES2233350T3; JP2003524795A; HK1043233B

Description

Hintergrund der Erfindung
I. Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf das Gebiet der Kommunikation im allgemeinen und betrifft insbesondere das Testen der Intaktheit bzw. Integrität der Nutzerschnittstelle von sprachsteuerbaren Geräten.
II. Stand der Technik
Stimmerkennung bzw. Spracherkennung (VR = Voice Recognition) stellt eine der bedeutendsten Technologien dar, um eine Maschine mit simulierter Intelligenz zum Erkennen von Nutzerkommandos oder nutzergesprochener Kommandos und zum Ermöglichen einer Mensch-Maschine-Schnittstelle auszustatten. VR stellt außerdem eine Schlüsseltechnologie für das Verstehen menschlicher Sprache dar. Systeme, die Verfahren zum Wiederherstellen einer linguistischen Mitteilung aus einem akustischen Sprachsignal nutzen, werden Stimm- bzw. Spracherkenner (Voice Recognizers) genannt. Der Begriff "Spracherkenner" wird hierin als allgemeine Form für jedes Gerät verwendet, das über eine nutzersprachsteuerbare Schnittstelle verfügt. Ein Spracherkenner umfaßt typischerweise einen akustischen Prozessor, welcher eine Sequenz informationstragender Merkmale bzw. Vektoren extrahiert, welche notwendig sind, um eine VR der eintreffenden Rohsprache zu erreichen, und einen Wort-Decoder, welcher die Merkmals- oder Vektor-Sequenz dekodiert, um ein sinnvolles und gewünschtes Ausgabeformat, wie beispielsweise eine Sequenz linguistischer Wörter entsprechend der eingegebenen Äußerungen, zu erhalten. Um die Leistung eines gegebenen Systems zu verbessern ist ein Training erforderlich, um das System mit gültigen Parametern auszurüsten. Mit anderen Worten, das System muß angelernt werden, bevor es optimal funktionieren kann.
Der akustische Prozessor stellt ein eingangsseitiges Sprachanalyse-Subsystem eines Spracherkenners dar. Ansprechend auf ein Eingabe-Sprachsignal liefert der akustische Prozessor eine geeignete Repräsentation zum Charaktierisieren des zeitvarianten Sprachsignals. Der akustische Prozessor sollte irrelevante Information wie beispielsweise Hintergrundgeräusche, Kanalverzerrungen, Besonderheiten des Sprechers und der Sprechweise verwerfen. Eine effiziente Akustik-Verarbeitung stattet Spracherkenner mit einer erweiterten akustischen Unterscheidungsleistung aus. Um dies zu erreichen, kann die Kurzzeit spektrale Umhüllende (short time spectral envelope) als eine nützliche zu analysierende Eigenschaft genutzt werden. Zwei häufig genutzte Spektralanalyse-Verfahren für das Beschreiben der Kurzzeit spektralen Umhüllenden sind die lineare Vorhersagekodierung (LPC = Linear Predictive Coding) und die filterbank-basierte spektrale Modellierung. Beispielhafte LPC-Verfahren sind beschrieben in U.S. Patent No. 5,414,796, welches dem Rechtsnachfolger der vorliegenden Erfindung zugewiesen ist, sowie in L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals (1978), Seiten 396–453.
Die Nutzung von VR (häufig auch als Spracherkennung bezeichnet) wird aus Sicherheitsgründen immer bedeutender. VR kann beispielsweise die manuelle Tätigkeit des Drückens einer Taste auf der Tastatur eines drahtlosen Telefons ersetzen. Dies ist von besonderer Bedeutung, wenn der Nutzer eine Telefonverbindung während des Autofahrens initiiert. Bei Nutzung eines Telefons ohne VR muß der Fahrer eine Hand vom Steuer nehmen und während des Drückens der Tasten zum Wählen der Verbindung auf die Tastatur des Telefons schauen. Diese Handlungen erhöhen die Wahrscheinlichkeit eines Verkehrsunfalls. Ein sprachsteuerbares Telefon (d.h. ein Telefon, welches für Spracherkennung ausgelegt ist) würde es dem Fahrer erlauben, die Telefonverbindung herzustellen, während er kontinuierlich die Straße im Blick behält. Eine Auto-Freisprechanlage (hands-free car-kit system) würde es dem Fahrer zusätzlich erlauben, während des Verbindungsaufbaus beide Hände am Steuer zu belassen.
Spracherkennende Geräte werden klassifiziert als entweder sprecherabhängig oder sprecherunabhängig. Sprecherunabhängige Geräte sind in der Lage, Sprachkommandos von einem beliebigen Nutzer entgegenzunehmen. Sprecherabhängige Geräte, die weiter verbreitet sind, werden trainiert bzw. angelernt, um Kommandos von bestimmten Nutzern zu erkennen. Ein sprecherabhängiges VR Gerät arbeitet typischerweise in zwei Phasen, einer Trainingsphase und einer Erkennungsphase. Während der Trainingsphase fordert das VR system den Nutzer auf, jedes Wort aus dem Systemvokabular ein- oder zweimal zu sprechen, so daß das System die Eigenschaften der Sprache des Nutzers für diese bestimmten Wörter oder Phrasen erlernen kann. Für ein phonetisches VR Gerät wird das Training alternativ durchgeführt, indem einer oder mehrere kurze Artikel vorgelesen werden, die speziell geschrieben wurden, um alle Phoneme der Sprache abzudecken. Ein beispielhaftes Vokabular für eine Auto-Freisprecheinrichtung kann die Ziffern der Tastatur, die Schlüsselworte "anrufen", "senden", "wählen", "abbrechen", "freigeben", "hinzufügen", "löschen", "Historie", "Programm", "ja" und "nein", und die Namen einer festgelegten Anzahl gewöhnlich angerufener Mitarbeiter, Freunde oder Familienmitglieder enthalten. Nach Abschluß des Trainings, in der Erkennungsphase, kann der Nutzer Verbindungen initiieren, indem er die angelernten Schlüsselworte spricht. Falls beispielsweise der Name "John" einer der angelernten Namen ist, könnte der Nutzer eine Verbindung mit John initiieren, indem er die Phrase "John anrufen" spricht. Das VR System würde die Worte "John" und "anrufen" erkennen und diejenige Nummer wählen, die der Nutzer zuvor als Johns Telefonnummer eingegeben hat.
Sprachsteuerbare Produkte müssen während des Produktentwicklungszyklus und während der Produktvalidierungsphase mehrmals von Hunderten von Nutzern getestet werden, um die Intaktheit bzw. Integrität der Nutzerschnittstelle und der Anwendungslogik zu testen. Ein statistisch signifikanter, wiederholbarer Test einer solchen Größenordnung ist in der Durchführung für den Hersteller unerschwinglich teuer. Aus diesem Grund unterliegen viele VR Produkte einem eingeschränkten Testverfahren im Labor und einem umfassenden Test im Markt – d.h. beim Konsumenten.
US Patent No. 5,715,369 beschreibt ein Spracherkennungs-Testsystem, welches einen Host-Prozessor und eine Speichereinrichtung mit mehreren Audiodateien aufweist. Nach einem gegebenen Startkommando wird die nächste Audiodatei einer Audiodatei-Warteschlange für Lesezugriffe geöffnet. Die Testanwendung leitet eine Eingabephrase an die Spracherkennungsanwendung, welche die eingegebenen Audiodaten verarbeitet und die Ausgabe der Spracherkennungsanwendung sammelt und die Ausgabe in einer Testergebnisdatei vermerkt.
Es wäre für Hersteller wünschenswert, Konsumenten mit vollständig getesteten VR Produkten versorgen zu können. Daher besteht ein Bedarf an einem Testparadigma zum Testen und Verbessern sprachsteuerbarer Produkte und sprachsteuerbarer Dienste, welches niedrige Kosten aufweist sowie wiederholbar und berührungslos/zerstörungslos (non-intrusive) ist.
Zusammenfassung der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Testparadigma zum Testen und Verbessern sprachsteuerbarer Produkte und sprachsteuerbarer Dienste, welches niedrige Kosten aufweist sowie wiederholbar und berührungslos/zerstörungslos (non-intrusive) ist. In einem Aspekt der Erfindung wird entsprechend eine Vorrichtung zum Testen und Trainieren eines Stimm- bzw. Spracherkenners vorgesehen, die folgendes aufweist: Mittel zum Speichern einer Vielzahl von gesprochenen Äußerungen und Mittel zum Testen des Spracherkenners, welche folgendes aufweisen: Mittel zum Empfangen einer Aufforderung bzw. eines Prompt für einen ersten Betrieb bzw. eine erste Operation vom Spracherkenner, Mittel zum Ansprechen bzw. Reagieren auf den Prompt für die erste Operation mit einer ersten Auswahl aus der Vielzahl von gesprochenen Äußerungen, Mittel zum Liefern einer Audio-Eingabe an den Spracherkenner entsprechend der ersten Auswahl, und Mittel zum Überwachen des Spracherkenners hinsichtlich des Erfolgs der ersten Operation.
In einem anderen Aspekt der Erfindung weist ein Verfahren zum Testen und Trainieren eines Spracherkenners vorteilhaft folgende Schritte auf: Speichern einer Vielzahl von gesprochenen Äußerungen und Testen des Spracherkenners, und weist weiterhin Folgendes auf: Empfangen einer Aufforderung bzw. eines Prompt für einen ersten Betrieb bzw. eine erste Operation vom Spracherkenner, Ansprechen bzw. Reagieren auf den Prompt für die erste Operation mit einer ersten Auswahl aus der Vielzahl von gesprochenen Äußerungen, Liefern einer Audioeingabe an den Spracherkenner entsprechend der ersten Auswahl, und Überwachen des Spracherkenners hinsichtlich des Erfolgs der ersten Operation.
Kurzbeschreibung der Zeichnungen
1 ist ein Blockdiagramm eines konventionellen Stimm- bzw. Spracherkennungssystems.
2 ist ein Blockdiagramm eines Testssystems für Stimm- bzw. Spracherkennungssysteme wie das in 1 dargestellte.
3 ist ein Flußdiagramm, welches die Verfahrensschritte darstellt, die durch ein Spracherkennungssystem ausgeführt werden, wenn das Testsystem der 2 einen Spracheintrag in das Spracherkennungssystem einspeichert.
4 ist ein Flußdiagramm, welches die Verfahrensschritte darstellt, die durch ein Spracherkennungssystem ausgeführt werden, wenn das Testsystem aus 2 einen Spracheintrag im Spracherkennungssystem anwählt.
Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
Wie in 1 dargestellt, weist ein konventionelles Spracherkennungssystem 10 einen Analog-Digital-Umsetzer (A/D) 12, einen akustischen Prozessor 14, eine VR Vorlagendatenbank 16, eine Mustervergleichslogik 18 und eine Entscheidungslogik 20 auf. Das VR System 10 kann beispielsweise in einem drahtlosen Telefon oder in einer Fahrzeug-Freisprecheinrichtung untergebracht sein.
Wenn sich das VR System 10 in der Spracherkennungsphase befindet, spricht eine Person (nicht dargestellt) ein Wort oder eine Phase, wobei ein Sprachsignal erzeugt wird. Das Sprachsignal wird mittels eines konventionellen Wandlers (ebenfalls nicht dargestellt) in ein elektrisches Sprachsignal s(t) konvertiert. Das Sprachsignal s(t) wird an den A/D 12 geliefert, welcher das Sprachsignal s(t) in digitalisierte Sprachabtastwerte s(n) umwandelt, und zwar in Übereinstimmung mit einem bekannten Abtastverfahren wie beispielsweise Pulscodemodulation (PCM).
Die Sprachabtastwerte s(n) werden an den akustischen Prozessor 14 für die Bestimmung von Parametern geliefert. Der akustische Prozessor 14 erzeugt einen Satz von Parametern, welcher die Eigenschaften des eingegebenen Sprachsignals s(t) modelliert. Die Parameter können in Übereinstimmung mit einem beliebigen aus einer Vielzahl von bekannten Sprachparameter-Bestimmungsverfahren bestimmt werden, einschließlich beispielsweise Kodieren durch einen Sprachkodierer und Nutzen der schnellen Fourier-Transformation (FFT) basierten Cepstrum-Koeffizienten, wie in oben genanntem US Patent No. 5,414,796 beschrieben. Der akustische Prozessor 14 kann als ein digitaler Signalprozessor (DSP) ausgeführt sein. Der DSP kann einen Sprachkodierer aufweisen. Alternativ kann der akustische Prozessor als Sprachkodierer (speech coder) implementiert sein.
Die Parameterbestimmung wird ebenfalls während des Trainings des VR Systems 10 durchgeführt, wobei ein Satz von Vorlagen für alle Worte des Vokabulars des VR Systems 10 für dauerhafte Speicherung an die VR Vorlagendatenbank 16 geleitet wird. Die VR Vorlagendatenbank 16 ist vorteilhaft als eine beliebige konventionelle Form nicht-flüchtigen Speichermediums implementiert, wie beispielsweise Flash-Speicher. Dies erlaubt den Verbleib der Vorlagen in der VR Vorlagendatenbank 16, wenn die Spannungszufuhr zum VR System 10 abgeschaltet wird.
Der Parametersatz wird an die Mustervergleichslogik 18 geliefert. Die Mustervergleichslogik 18 detektiert vorteilhaft den Startpunkt und den Endpunkt einer Äußerung, berechnet die dynamischen akustischen Merkmale (wie beispielsweise zeitliche Ableitungen, zweite zeitliche Ableitungen etc.), komprimiert die akustischen Merkmale, indem relevante Rahmen ausgewählt werden, und quantisiert die statischen und die dynamischen akustischen Merkmale. Verschiedene bekannte Verfahren für die Endpunktdetektierung, die Ableitung der dynamischen akustischen Merkmale, die Musterkompression und die Musterquantisierung sind beispielsweise in Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition (1993) beschrieben. Die Mustervergleichslogik 18 vergleich den Parametersatz mit allen in der VR Vorlagendatenbank 16 gespeicherten Vorlagen. Die Vergleichsergebnisse bzw. Distanzen zwischen dem Parametersatz und allen in der VR Vorlagendatenbank 16 gespeicherten Vorlagen werden an die Entscheidungslogik 20 geliefert. Die Entscheidungslogik 20 wählt ais der VR Vorlagendatenbank 16 die Vorlage aus, die mit dem Parametersatz am besten übereinstimmt. In einer Alternative kann die Entscheidungslogik einen konventionellen "N-Best" Auswahlalgorithmus verwenden, welcher die N besten Übereinstimmungen innerhalb einer festgelegten Übereinstimmungsschwelle auswählt. Die Person wird dann befragt, welche Auswahl gewünscht war. Die Ausgabe der Entscheidungslogik 20 ist die Entscheidung, welches Wort des Vokabulars gesprochen worden war.
Die Mustervergleichslogik 18 und die Entscheidungslogik 20 können vorteilhaft als ein Mikroprozessor implementiert werden. Das VR System 10 kann z.B. eine anwendungsspezifische integrierte Schaltung (ASIC = Application Specific Integrated Circuit) sein. Die Erkennungsgenauigkeit bzw. Erkennungsquote des VR Systems 10 ist ein Maß dafür, wie gut das VR System 10 gesprochene Worte oder Phrasen des Vokabulars korrekt erkennt. Eine Erkennungsgenauigkeit bzw. Erkennungsquote von 95% gibt an, daß das VR System 10 in fünfundneunzig von 100 Fällen die Worte im Vokabular korrekt erkennt.
In Übereinstimmung mit einem Ausführungsbeispiel, wie in 2 dargestellt, weist ein Testsystem 100 für VR Produkte einen Prozessor 102, ein Software-Modul 104 und ein Speichermedium 106 auf. Der Prozessor 102 ist vorteilhaft ein Mikroprozessor, kann jedoch eine beliebige andere konventionelle Form von Prozessor, Controller oder Zustandsmaschine sein. Der Prozessor 102 ist mit dem Software-Modul 104 gekoppelt, weiches vorteilhaft als ein RAM Speicher, welcher Software-Anweisungen beinhaltet, implementiert ist. Der RAM Speicher 104 kann on-board RAM sein, oder der Prozessor 102 und der RAM Speicher können in einem ASIC untergebracht sein. In einer Alternative können Firmware-Anweisungen anstelle des Software-Moduls 104 genutzt werden. Das Speichermedium 106 ist mit dem Prozessor 102 gekoppelt und ist vorteilhaft als ein Scheibenspeicher bzw. Plattenspeicher implementiert, auf den durch den Prozessor 102 zugegriffen werden kann. In einer Alternative kann das Speichermedium 106 als eine beliebige Form konventionellen nichtflüchtigen Speichers implementiert sein. Eingabe- und Ausgabeverbindungen erlauben es dem Prozessor, mit einem zu testenden VR Gerät (nicht dargestellt) zu kommunizieren. Die Eingabe- und Ausgabeverbindungen weisen vorteilhaft ein Kabel auf, welches das Testsystem 100 elektrisch mit dem VR Gerät koppelt. Zusätzlich zu einem Kabel können die Eingabe- und Ausgabeverbindungen einen Digital-Analog-Umsetzer (D/A) (nicht dargestellt) sowie einen Lautsprecher (ebenfalls nicht dargestellt) aufweisen, um dem Testsystem 100 die hörbare Kommunikation bzw. die Kommunikation mittels Schall mit dem VR Gerät zu ermöglichen.
Das Testsystem 100 simuliert das Nutzen eines VR Geräts durch Hunderte von Sprechern und liefert somit einen Test, welcher niedrige Kosten aufweist sowie wiederholbar und berührungslos/zerstörungslos (non-intrusive) ist. Das Speichermedium 106 enthält digitale Abtastwerte eines Satzes von Äußerungen, wobei jede Äußerung durch viele verschiedene Sprecher wiederholt wurde. In einem Ausführungsbeispiel werden 150 Wörter durch jeden Sprecher gesprochen, 600 Sprecher sind gespeichert, was 90.000 digitale Abtastwerde liefert, die im Speichermedium 106 gespeichert sind. Die Software-Anweisun gen, die im Software-Modul 104 vorgehalten werden, werden durch den Prozessor 102 ausgeführt, um den Zustand des VR Geräts (welcher an der Eingabeverbindung empfangen wird) zu erwarten, und um eine geeignete Antwort bzw. Reaktion über die Ausgabeverbindung vorzusehen. Die Software-Anweisungen können vorteilhaft in einer Script-Sprache geschrieben sein. Das Kabel der Ausgabeverbindung kann vorteilhaft mit dem VR Gerät mittels eines normalen seriellen Ports oder einem Diagnose/Überwachungsport des VR Geräts und/oder über einen PCM Port des VR Geräts verbunden sein. In einem Ausführungsbeispiel, in welchem das VR Gerät ein drahtloses Telefon ist, wird der serielle Port genutzt, um das VR Gerät anzuweisen, das Drücken von Tasten einer Tastatur des Telefons zu emulieren, und um die auf der LCD Anzeige des Telefons angezeigten Zeichen auszulesen. In einem anderen Ausführungsbeispiel, in welchem das VR Gerät eine Auto-Freisprecheinrichtung (und ein assoziiertes Telefon) ist, wird er PCM Port der Freisprecheinrichtung genutzt, um Sprache in die Freisprecheinrichtung einzugeben und um Sprachaufforderungen und Sprachreaktionen von der Freisprecheinrichtung zu empfangen. In einem anderen Ausführungsbeispiel kann die Sprache hörbar bzw. als Schall an das VR Gerät mittels eines D/A und eines Lautsprechers geliefert werden. Somit übernimmt das Testssystem 100 gegenüber dem VR Gerät die Rolle eines menschlichen Nutzers und erzeugt die Ergebnisse in Echtzeit. Ferner weist das Software-Modul 104 Anweisungen zum Überwachen der Erkennungsgenauigkeit bzw. Erkennungsquote des VR Geräts sowie Anweisungen zum Berichten der Erkennungsgenauigkeit bzw. Erkennungsquote an den Anwender auf.
In einem Ausführungsbeispiel kann die Intaktheit bzw. Integrität eines VR Geräts gemäß der im Flußdiagramm der 3 dargestellten Verfahrensschritte getestet werden. Jene mit Fachkenntnissen auf dem Gebiet werden erkennen, daß die in 3 dargestellten Schritte des Algorithmus, die durch ein Testsystem (nicht dargestellt) ausgeführt werden, auf eine bestimmte, angenommene VR Nutzerschnittstelle zugeschnitten sind. Andere und verschiedene VR Nutzerschnittstellen können zu verschiedenen Schritten des Algorithmus führen. Gemäß des Ausführungsbeispiels der 3 wird ein Spracheintrag in einem VR Gerät (nicht dargestellt) durch ein Testsystem einem VR Gerät (nicht dargestellt) durch ein Testsystem gespeichert, welches aus Sicht des VR Geräts wie ein menschlicher Nutzer verhält.
Im Schritt 200 wird die Aufforderung bzw. der Prompt "Spracheintrag hinzufügen?" auf dem LCD Schirm eines VR Geräts erzeugt. Dieses Merkmal, welches sich häufig in VR Geräten findet, erlaubt es dem Nutzer, einen Spracheintrag (voice tag) zu einer zuvor eingegebenen numerischen Telefonnummer hinzuzufügen, so daß der Nutzer den Wählvorgang durch Ansagen des mit dieser Nummer korrespondierenden Namens initiieren kann. Das Testsystem empfängt die Aufforderung bzw. den Prompt und wählt mittels eines Kabels, welches das Testsystem mit dem Diagnoseport oder dem seriellen Port des VR Geräts elektrisch koppelt, entweder "OK", um den Spracheintrag hinzuzufügen, oder "Nächster", um einen weiteren Spracheintrag hinzuzufügen.
Im Schritt 202 erscheint die Anweisung "Telefon an das Ohr halten und Anweisungen folgen" auf dem LCD Schirm des VR Geräts und wird vom Testsystem empfangen. Im Schritt 204 wartet das Testsystem zwei Sekunden, um die Reaktionszeit eines menschlichen Nutzers zu simulieren. Im Schritt 206 erscheint die Anweisung "Bitte einen Namen sprechen" auf dem LCD Schirm des VR Geräts und wird durch das Testsystem empfangen. Im Schritt 208 erzeugt das VR Gerät hörbar bzw. als Schall die Worte "Name, bitte", gefolgt von einem akustischen Signal bzw. Beep.
In Schritt 210 erzeugt das Testsystem hörbar bzw. als Schall einen Namen, der einer gespeicherten Namens-Datenbank entnommen wird, und das VR Gerät "erfaßt" die Äußerung. Das VR Gerät kann beim Erfassen der Äußerung scheitern, d.h. ein Fehlerzustand kann auftreten. Fehlerzustände umfassen beispielsweise eine Pause von mehr als zwei Sekunden, bevor ein Name gesprochen wird; der gesprochene Name ist zu kurz, z.B. weist eine Dauer von weniger als 280 ms auf; oder der gesprochene Name ist zu lang, z.B. weist eine Dauer von mehr als zwei Sekunden auf. Falls das VR Gerät beim Erfassen der Äußerung scheitert, wiederholt das VR Gerät den Prompt bzw. die Anweisung aus Schritt 208. Falls eine festgelegte Anzahl N von Fehlversuchen in Folge auftritt, bricht das VR Gerät ab und kehrt zu Schritt 206 zurück.
Falls das VR Gerät die gegebene Äußerung in Schritt 210 erfaßt, erzeugt das VR Gerät hörbar bzw. als Schall die erfaßte Äußerung in Schritt 212. In Schritt 214 erscheint die Anweisung "Bitte nochmals" auf dem LCD Schirm des VR Geräts und wird durch das Testsystem empfangen. Im Schritt 216 erzeugt das VR Gerät hörbar bzw. als Schall das Word "Nochmals", gefolgt von einem akustischen Signal bzw. Beep.
In Schritt 218 wiederholt das Testsystem den Namen hörbar bzw. als Schall. Falls das VR Gerät beim Erfassen der Äußerung scheitert, d.h., falls ein Fehlerzustand auftritt, wiederholt das VR Gerät die Aufforderung bzw. den Prompt aus Schritt 216. Falls eine festgelegte Anzahl N von Fehlversuchen in Folge auftritt, bricht das VR Gerät ab und kehrt zu Schritt 206 zurück.
Falls das VR Gerät die gegebene Äußerung in Schritt 218 erfaßt, vergleicht das Testsystem die beiden in Schritten 210 und 218 erfaßten Äußerungen oder ermittelt eine "Übereinstimmung". Falls die beiden Antworten nicht übereinstimmen, wird die zweite Antwort zurückgewiesen, und das VR Gerät wiederholt die Aufforderung bzw. den Prompt aus Schritt 216. Falls eine festgelegte Anzahl M von Fehlversuchen, die beiden Äußerungen in Übereinstimmung zu bringen, auftritt, bricht das VR Gerät ab und kehrt zu Schritt 206 zurück. Das Testsystem vermerkt die Zahl der Fehlversuche, um dem Nutzer ein Maß für die Genauigkeit bzw. die Quote des VR Geräts zu liefern.
Falls die Übereinstimmungsprobe erfolgreich ist, wiederholt das VR Gerät die zweite erfaßte Äußerung hörbar bzw. als Schall in Schritt 222. In Schritt 224 erscheinen die Worte "Spracheintrag erfolgreich gespeichert" auf dem LCD Schirm des VR Geräts und werden mittels des Kabels beim Testsystem empfangen. Im Schritt 226 zeigt der LCD Schirm des VR Geräts an, daß die Nummer in einem bestimmten Speicherplatz abgelegt wurde. In Schritt 228 zeigt der LCD Schirm des VR Geräts die Zahl der bereits verwendeten Spei cherplätze und die Zahl der noch verfügbaren Speicherplätze an. Das VR Gerät verläßt anschließend den VR Modus.
In einem Ausführungsbeispiel kann die Intaktheit bzw. Integrität der Nutzerschnittstelle eines VR Geräts entsprechend der im Flußdiagramm der 4 dargestellten Verfahrensschritte getestet werden. Jene mit Fachkenntnissen auf dem Gebiet werden erkennen, daß die in 4 dargestellten Schritte des Algorithmus, die durch ein Testsystem (nicht dargestellt) ausgeführt werden, auf eine bestimmte, angenommene VR Nutzerschnittstelle zugeschnitten sind. Andere und verschiedene VR Nutzerschnittstellen können zu verschiedenen Schritten des Algorithmus führen. Gemäß des Ausführungsbeispiels der 4 wird ein Spracheintrag in einem VR Gerät (nicht dargestellt) durch ein Testsystem gewählt, welches sich aus Sicht des VR Geräts wie ein menschlicher Nutzer verhält.
In Schritt 300 sendet das Testsystem ein Kommando über ein Kabel, welches das Testsystem mit dem Diagnoseport oder dem seriellen Port des VR Geräts verbindet. Das Kommando simuliert einen menschlichen Nutzer, der eine SENDEN Taste des VR Geräts betätigt. In Schritt 302 emittiert das VR Gerät zwei akustische Signale bzw. Beeps hintereinander. In Schritt 302 erscheinen die Worte "VR kann gestartet werden" und "Senden = Wahlwiederholung" auf dem LCD Schirm des VR Geräts und werden am Testsystem über das Kabel empfangen. Das Testsystem kann über das Kabel entweder "Wahlwiederholung" wählen, um eine frühere Verbindung erneut zu wählen, oder "VR", um in den VR Modus einzutreten. Die SENDEN Taste wird genutzt, um den VR Modus zu initiieren, was passiert, wenn der Nutzer keine Handlung innerhalb von zwei Sekunden nach dem Drücken von SENDEN vornimmt. Der Nutzer hat allerdings die Möglichkeit, die zuvor gewählte Nummer erneut zu wählen, indem er die SENDEN Taste innerhalb von zwei Sekunden nach dem ersten Betätigen erneut betätigt. Das VR Gerät zeigt an, daß der VR Modus gestartet werden kann, aber daß der Nutzer eine Wahlwiederholung durchführen kann, falls er oder sie SENDEN erneut betätigt. Im Schritt 306 wartet das Testsys tem zwei Sekunden, um so die Reaktionszeit eines menschlichen Nutzers zu simulieren.
In Schritt 308 hat das Testsystem über das Kabel "VR" ausgewählt, und das VR Gerät tritt in dem VR Modus ein. Die Anweisung "Bitte Spracheintrag sprechen" wird auf dem LCD Schirm des VR Geräts erzeugt und vom Testsystem über das Kabel empfangen. In Schritt 310 erzeugt das VR Gerät hörbar bzw. als Schall die Worte "Name, bitte", gefolgt von einem akustischen Signal bzw. Beep.
In Schritt 312 erzeugt das Testsystem hörbar bzw. als Schall einen Namen, der einer gespeicherten Namens-Datenbank entnommen wird, und das VR Gerät "erfaßt" die Äußerung. Das VR Gerät kann beim Erfassen der Äußerung scheitern, d.h, ein Fehlerzustand kann auftreten. Fehlerzustände umfassen beispielsweise eine Pause von mehr als zwei Sekunden, bevor ein Name gesprochen wird; der gesprochene Name ist zu kurz, z.B. weist eine Dauer von weniger als 280 ms auf; oder der gesprochene Name ist zu lang, z.B. weist eine Dauer von mehr als zwei Sekunden auf. Falls das VR Gerät beim Erfassen der Äußerung scheitert, wiederholt das VR Gerät den Prompt bzw. die Anweisung aus Schritt 310. Falls eine festgelegte Anzahl N von Fehlversuchen in Folge auftritt, bricht das VR Gerät ab und kehrt zu Schritt 308 zurück.
In Schritt 314 vergleicht das VR Gerät die erfaßte Äußerung mit jedem Namen aus der Namensliste, die im Vokabular des VR Geräts gespeichert ist, oder ermittelt eine Übereinstimmung. Falls keine Übereinstimmung gefunden wird, wiederholt das VR Gerät die Anweisung bzw. den Prompt des Schrittes 310. Falls eine festgelegte Anzahl M von Fehlversuchen, eine Übereinstimmung aufzufinden, auftritt, bricht das VR Gerät ab und kehrt zu Schritt 308 zurück. Das Testsystem vermerkt die Zahl der Fehlversuche, um dem Nutzer ein Maß für die Genauigkeit bzw. die Quote des VR Geräts zu liefern.
Falls mehr als eine Übereinstimmung bzw. mehr als ein Treffer in Schritt 314 aufgefunden wurde, fährt das VR Gerät mit Schritt 316 fort, in welchem ein aus dem Stand der Technik bekannter n_best Algorithmus angewendet wird, um die Treffer aufzulösen. Mit dem n_best Algorithmus erlaubt es das VR Gerät dem Testsystem, aus einer vorbestimmten Anzahl n, vorteilhaft zwei, Übereinstimmungen/Treffer aus dem Namens-Vokabular im VR Gerät auszuwählen. Beispielsweise fragt das VR Gerät das Testsystem hörbar bzw. mittels Schall, ob das Testsystem die mit der besten Übereinstimmung bzw. mit dem besten Treffer korrespondierende Sprache "gesprochen" hat. Das VR Gerät erzeugt außerdem die gleiche Frage auf seinem LCD Schirm, gemeinsam mit einer JA oder NEIN Auswahl. Das Testsystem empfängt diese Information über das Kabel und wählt entweder JA oder NEIN über das Kabel aus. Falls das Testsystem NEIN auswählt, wiederholt das VR Gerät die Fragen bezüglich des nächstbesten Treffers. Der Prozeß wird fortgesetzt, bis ein Treffer durch das Testsystem ausgewählt wurde, oder bis kein Treffer ausgewählt wurde und die Trefferliste erschöpft ist, wobei das VR Gerät an dieser Stelle abbrechen und den Schritt 308 wiederholen würde.
Falls die Übereinstimmungsprobe in einem der Schritte 314 oder 316 erfolgreich ist, geht das VR Gerät zum Schritt 318 über. In Schritt 318 zeigt der LCD Schirm des VR Geräts an, daß das VR Gerät die mit dem Namen assoziierte gespeicherte Telefonnummer anruft. Diese Anzeige wird vom Testsystem über das Kabel empfangen. In Schritt 320 zeigt das VR Gerät hörbar bzw. mittels Schall an, daß es den gewählten Namen anruft.
Im Schritt 322 erfaßt das VR Gerät beliebige Äußerungen vom Testsystem, die üblicherweise Stille sind. Das Testsystem könnte auch hörbar bzw. mittels Schall das Wort "Ja" mittels eines mit dem Testsystem gekoppelten Lautsprechers erzeugen. Oder das Testsystem könnte das Wort "Nein" erzeugen. Falls das VR Gerät nichts erfaßt, wird die Verbindung hergestellt (d.h. Stille wird angenommen). Falls das VR Gerät eine Äußerung erfaßt, die es erfolgreich mit dem in der Vokabulardatenbank des VR Geräts gespeicherten Wort "Ja" in Übereinstimmung bringen kann, wird die Verbindung hergestellt. Falls anderenfalls ein Fehlerzustand eintritt, wie das Erfassen einer zu langen oder einer zu kurzen Äußerung, fragt das VR Gerät nach, ob das Testsystem die Verbin dung aufgebaut haben möchte. Falls das VR Gerät eine Äußerung erfaßt, die erfolgreich mit einem anderen Wort als "Ja" in Übereinstimmung gebracht werden kann, fragt das VR Gerät nach, ob das Testsystem die Verbindung aufgebaut haben möchte. Falls das Testsystem zustimmend reagiert, wird die Verbindung hergestellt. Falls das Testsystem negativ reagiert, bricht das VR System ab und kehrt zu Schritt 308 zurück. Das Testsystem könnte über das Kabel reagieren. In einer Alternative oder zusätzlich könnte das Testsystem hörbar bzw, mittels Schall durch den Lautsprecher reagieren, wobei in diesem Fall die Reaktion erfaßt und in einer den vorstehend beschriebenen Verfahren ähnlichen Weise auf Übereinstimmungen untersucht werden müßte.
In den mit Bezug auf 3–4 beschriebenen Ausführungsbeispielen werden Kommandos vom Testsystem an das VR Gerät über ein Kabel gesendet, welches das Testsystem mit dem Diagnoseport oder dem seriellen Port des VR Geräts elektrisch koppelt. Die Kommandos werden vom Testsystem gesendet. In einem weiteren Ausführungsbeispiel kann ein Computer-Bildschirm mit dem Testsystem verbunden werden, um eine graphische Darstellung der Nutzerschnittstells des VR Geräts anzuzeigen, einschließlich der aktuellen Anzeige auf dem LCD Schirm des VR Geräts. Simulierte Tasten werden auf dem Bildschirm angezeigt, auf welche der Nutzer mittels Maus klicken kann, um Tastendruck-Kommandos an das VR Gerät zu senden, um das physikalische Drücken der Tasten durch einen Nutzer zu simulieren. Mittels des Bildschirms kann der Nutzer das VR Gerät steuern, ohne es tatsächlich zu berühren.
Somit wurde ein neues und verbessertes Verfahren sowie eine neue und verbesserte Vorrichtung zum Testen der Intaktheit bzw. Integrität der Nutzerschnittstelle von sprachsteuerbaren Geräten beschrieben. Jene mit Fachkenntnissen werden erkennen, daß viele andere Aspekte einer VR Nutzerschnittstelle, wie beispielsweise die Sprachnotiz-Funktion, mit dem vorstehend beschriebenen Testsystem getestet werden können. Der Fachmann auf dem Gebiet wird wissen, daß die verschiedenen veranschaulichenden logischen Blöcke und Algorithmusschritte, die im Zusammenhang mit den hierin offenbarten Ausführungsbeispielen beschrieben wurden, mittels digitalem Si- Signalprozessor (DSP), mittels anwendungsspezifischer integrierter Schaltung (ASIC), mittels diskreter Gatter- oder Transistorlogik, mittels diskreter Hardware-Komponenten wie Register und FIFO, mittels eines Prozessors, der einen Satz von Firmware-Anweisungen ausführt, oder mittels eines beliebigen konventionellen programmierbaren Software-Moduls und eines Prozessors implementiert oder ausgeführt werden können. Der Prozessor kann vorteilhaft ein Mikroprozessor sein, kann aber alternativ ein beliebiger herkömmlicher Prozessor, Controller, Microcontroller oder eine Zustandsmaschine sein. Das Software-Modul kann in einem RAM Speicher, in Flash-Speicher, Registern oder jeder anderen, in der Technik bekannten Form beschreibbaren Speichermediums untergebracht sein. Der Fachmann auf dem Gebiet wird ferner erkennen, daß die Daten, Anweisungen, Kommandos, Informationen, Signale, Bits, Symbole und Chips, die in der gesamten vorstehenden Beschreibung erwähnt sind, vorteilhaft als Spannungen, Ströme, elektromagnetische Wellen, magnetische Felder oder Teilchen, optische Felder oder Teilchen, oder eine Kombination davon, repräsentiert werden können.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit dargestellt und beschrieben. Es ist dem Durchschnittsfachmann auf dem Gebiet allerdings ohne weiteres ersichtlich, daß zahlreiche Abänderungen an den hierin offenbarten Ausführungsbeispielen vorgenommen werden können, ohne vom Gegenstand der Erfindung abzuweichen. Damit ist die vorliegende Erfindung nicht eingeschränkt mit Ausnahme dessen, was sich nach Maßgabe der Patentansprüche ergibt.

Claims

Eine Vorrichtung zum Testen und Trainieren eines Spracherkenners, wobei Folgendes vorgesehen ist: Mittel zum Speichern einer Vielzahl von gesprochenen Äußerungen bzw. Ausdrücken; Mittel zum Testen des Spracherkenners, wobei Folgendes vorgesehen ist: Mittel zum Empfangen einer Aufforderung bzw. eines Prompts (206,308) für einen ersten Betrieb vom Spracherkenner, Mittel (210,312) zum Ansprechen bzw. Reagieren auf den Prompt für den ersten Betrieb mit einer ersten Auswahl aus der Vielzahl von Sprachausdrücken, Mittel (210,312) zum Liefern einer Audio-Eingangsgröße an den Spracherkenner entsprechend der ersten Auswahl, und Mittel (224,318) zur Überwachung des Spracherkenners hinsichtlich des Erfolgs des ersten Betriebs.
Vorrichtung nach Anspruch 1 zum Testen und Trainieren einer sprachbetätigten Vorrichtung, wobei Folgendes vorgesehen ist: ein Prozessor (102); ein Speichermedium (106) gekoppelt an den Prozessor und zum Speichern einer Vielzahl von Sprachausdrücken; und ein Softwaremodul, geeignet zum Empfang eines Prompts für einen ersten Betrieb von der sprachbetätigten Vorrichtung, Ansprechen auf den Prompt für den ersten Betrieb mit einer ersten Auswahl, Vorsehen einer Audio-Eingangsgröße für die sprachbetätigte Vorrichtung entsprechend der ersten Auswahl, und Überwachung der sprachbetätigten Vorrichtung hinsichtlich des Erfolgs des ersten Betriebs.
Vorrichtung nach Anspruch 2, wobei das Softwaremodul durch den Prozessor betreibbar ist, um mindestens eine der Vielzahl von Sprachausdrücken entsprechend dem ersten Betrieb zu erzeugen.
Vorrichtung nach Anspruch 2, wobei ferner ein Kabel vorgesehen ist, welches die Vorrichtung mit dem Spracherkenner koppelt.
Vorrichtung nach Anspruch 2, wobei der Spracherkenner ein drahtloses Telefon aufweist, bzw. ist.
Vorrichtung nach Anspruch 2, wobei der Spracherkenner ein drahtloses mit einem Automobileinbausatz gekoppeltes Telefon aufweist, bzw. ist.
Vorrichtung nach Anspruch 2, wobei das Softwaremodul ferner durch den Prozessor betreibbar ist, zur Überwachung der Leistungsfähigkeit oder Performance des Spracherkenners.
Ein Verfahren zum Testen und Trainieren eines Spracherkenners, wobei die folgenden Schritte vorgesehen sind: Speichern einer Vielzahl von Sprachäußerungen bzw. von Sprachausdrücken; und Testen des Spracherkenners, der Folgendes aufweist: Empfangen (206,308) einer Aufforderung bzw. eines Prompts für einen ersten Betrieb vom Spracherkenner, Ansprechen (210,312) auf den Prompt für den ersten Betrieb mit einer ersten Auswahl aus der Vielzahl von Sprachausdrücken, Vorsehen (210,312) einer Audioeingangsgröße für den Spracherkenner entsprechend der ersten Auswahl, und Überwachen (224,318) des Spracherkenners hinsichtlich des Erfolgs des ersten Betriebs.
Verfahren nach Anspruch 8, wobei der Schritt des Vorsehens Folgendes aufweist: Erzeugen für die Interpretation durch den Spracherkenner mindestens eines Sprachausdrucks aus der Vielzahl von gespeicherten Sprachausdrücken.
Verfahren nach Anspruch 8, wobei der Schritt des Vorsehens Folgendes aufweist: Elektrisches Routen oder Leiten der gespeicherten Proben bzw. Muster zu dem Spracherkenner.
Verfahren nach Anspruch 8, wobei der Spracherkenner ein drahtloses Telefon aufweist bzw. ist.
Verfahren nach Anspruch 8, wobei der Spracherkenner ein drahtloses mit einem Automobileinbausatz gekoppeltes Telefon aufweist bzw. ist.
Verfahren nach Anspruch 8, wobei ferner der Schritt des Überwachens der Leistungsfähigkeit bzw. der Performance des Spracherkenners vorgesehen ist.