DE60023398T2

DE60023398T2 - Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen

Info

Publication number: DE60023398T2
Application number: DE60023398T
Authority: DE
Inventors: Barbara Elaine Winchester Ballard; James R. Winchester Lewis; Amado. Winchester Nassiff; Kerry A. Winchester Ortega; Ronald E. Winchester Vanbuskirk; Huifang Winchester Wang
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1999-05-29
Filing date: 2000-05-24
Publication date: 2006-07-06
Anticipated expiration: 2020-05-25
Also published as: DE60023398D1; ES2248018T3; US6345254B1; ATE308097T1; CA2303718A1; EP1063635B1; EP1063635A2; EP1063635A3

Description

HINTERGRUND DER ERFINDUNG
1. Technisches Gebiet
Diese Erfindung betrifft das Gebiet der Computeranwendungen zur Spracherkennung und insbesondere ein System zum Verbessern der Genauigkeit der Befehlserkennung eines Spracherkennungssystems.
2. Beschreibung der verwandten Technik
Spracherkennung ist der Prozess, durch den akustische Signale, die über ein Mikrofon empfangen werden, mittels eines Computers in Wörter umgesetzt werden. Nachdem die Wörter erkannt wurden, könnten sie in einer Vielzahl von Computersoftwareanwendungen für Zwecke wie z.B. die Herstellung von Dokumenten, die Dateneingabe sowie als Befehl und zur Steuerung verwendet werden. Die Spracherkennung ist im Allgemeinen in Folge der großen Vielzahl von Aussprachemöglichkeiten, Betonungen und Sprachcharakteristiken der individuellen Sprecher ein schwieriges Problem. Demzufolge werden Gruppen von Einschränkungen verwendet, um Entscheidungen über die Wärter zu treffen, die ein Benutzer ausgesprochen hat.
Typische Sprachdiktier-Erkennungssysteme verwenden zwei Gruppen von Einschränkungen, und zwar ein akustisches Modell und ein Sprachmodell. Das akustische Modell berücksichtigt die Klänge, die die Wörter bilden, und das Sprachmodell berücksichtigt den grammatikalischen Kontext, in welchem die Wörter verwendet werden. Diese Modelle werden häufig verwendet, um den Suchraum von möglichen Wörtern einzugrenzen und um Mehrdeutigkeiten zwischen ähnlich klingenden Wörtern zu beseitigen. Diese Modelle sind statistisch Systeme und können in einer Vielzahl von Formen vorliegen. Das einfachste Sprachmodell kann z.B. als ein Netzwerk mit endlichen Zuständen spezifiziert werden, bei dem zulässige Wörter, die einem bestimmten Wort folgen, explizit gegeben sind. Es sind jedoch intelligentere Sprachmodelle entwickelt worden, die in Bezug auf eine kontextbezogene Grammatik präzisiert sind.
Bei der Verwendung eines Spracherkennungssystems, um den Betrieb und die Navigation von System- und Softwareanwendungen zu steuern, wird eine Gruppe von Befehlen für spezielle Aufgaben und Funktionen formuliert. Jeder Befehl besteht typischerweise aus einem oder zwei Wörtern oder einer kurzen Redewendung, die einen allgemeinen Ausdruck für die Ausführung einer bestimmten Operation darstellt. Übliche Sprachbefehls-Erkennungssysteme verfügen unter Umständen über eine größere Anzahl solcher Befehle. Damit sich der Sprecher den genauen Wortlaut der Befehle nicht merken muss, erkennen intelligente Systeme außerdem alternative Ausdrücke, die die gleiche Bedeutung besitzen wie ein bekannter Befehl. Typischerweise werden Sprachmodelle, die zur Diktiererkennung angewendet werden, verwendet, um die gesprochenen Befehle syntaktisch einzugrenzen.
Da jedoch die Befehle und ihre synonymen Gegenstücke typischerweise aus einem Wort oder zwei Wörtern bestehen, sind Syntax-Sprachmodelle häufig nicht sehr leistungsfähig. Deswegen beruhen herkömmliche Spracherkennungssysteme stark auf akustischen Modellen, um einen Befehl aus einer Gruppe von Befehlen auszuwählen, wobei in der Folge Schwierigkeiten auftreten, die gesprochenen Befehle zu erkennen. Wenn der gesprochene Befehl z.B. ähnlich wie andere Befehle klingt, führt das Befehlserkennungssystem unter Umständen einen nicht beabsichtigten Befehl aus oder es führt überhaupt keinen Befehl aus. In beiden Fällen muss der Benutzer den Befehl erneut diktieren oder mit einer anderen Eingabeeinheit eingeben.
In der US-Patentsschrift 5 867 817 wird ein Spracherkennungsmanager für ein am Kopf montiertes Anzeigesystem, das auf Sprache reagiert, für einen im Wesentlichen freihändigen Betrieb offenbart.
In der US-Patentschrift 5 390 279 werden Unterteilungssprachregeln durch den Kontext für eine Spracherkennung offenbart. Kontexte für jede Spracherkennungsregel werden dann festgelegt, wenn die entsprechende Regel aktiv ist. In einem Intervall werden gemeinsame Kontexte für die Sprachregeln festgelegt oder gemäß dieser gemeinsamen Kontexte in Sprachregelgruppen gruppiert oder unterteilt. Eine schnelle und wirkungsvolle Erzeugung eines Sprachmodells kann bei der Erkennung eines vorhandenen Kontexts dann in einem zweiten Intervall ausgeführt werden.
Es wäre demzufolge erwünscht, ein System zur Verbesserung der Erkennungsgenauigkeit von gesprochenen Befehlen zur Steuerung von System- und Anwendungsoperationen bereitzustellen.
Es ist eine Aufgabe der vorliegenden Erfindung, eine Technik bereitzustellen, die die oben erwähnten Nachteile mindert.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß der vorliegenden Erfindung wird ein Verfahren in einem Computersystem für Spracherkennung bereitgestellt, das in verschiedenen Zuständen betrieben wird und bei dem ein Programm abläuft, um verschiedene Ereignisse zum Erkennen eines gesprochenen Befehls auszuführen, wobei das Verfahren die folgenden Schritte umfasst: Überwachen mindestens einer der Ereignisse und Zustände; Empfangen eines verarbeiteten Befehls, der dem gesprochenen Befehl entspricht; Analysieren des verarbeiteten Befehls gemäß wenigstens einem akustischen Modell, um eine mögliche akustische Übereinstimmung zu identifizieren; Analysieren des verarbeiteten Befehls, um unter Verwendung eines statistischen Modells eine mögliche Kontext-Übereinstimmung zu identifizieren, um mindestens eines der Ereignisse und Zustände zu analysieren; und Bereitstellen eines erkannten Befehls anhand der möglichen akustischen und Kontext-Übereinstimmungen.
Außerdem wird in einem Computersystem für Spracherkennung ein Verfahren zur Verbesserung der Genauigkeit, mit der ein gesprochener Befehl erkannt wird, bereitgestellt, wobei das Verfahren die folgenden Schritte umfasst: Überwachen von Systemereignissen; Vorhersagen eines nächsten Ereignisses unter Verwendung eines statistischen Modells, um die Systemereignisse zu analysieren; und Abschätzen der gesprochenen Befehle gemäß dem nächsten Ereignis.
Es ist festgestellt worden, dass der Kontext, in welchem ein gesprochener Befehl ausgeführt wird, als ein Ersatz für die zur Diktaterkennung verwendeten Sprachmodelle verwendet werden kann. Insbesondere werden ereignisbasierte Datenstrukturen, die eine Anzeige des Kontextes sind, in welchem der Befehl erteilt wird, in dem Erkennungsprozess als Einschränkungen verwendet. Die vorliegende Erfindung stellt also ein System zur Verbesserung der Genauigkeit der Befehlserkennung von Spracherkennungssystemen bereit.
Die vorliegende Erfindung wird insbesondere in einem Computersystem zur Spracherkennung angewendet, das in verschiedenen Zuständen betrieben wird und in dem ein Programm abläuft, um verschiedene Ereignisse auszuführen. Das Verfahren und das System werden ausgeführt, indem Ereignisse und Zustände überwacht werden und ein verarbeiteter Befehl, der einem gesprochenen Befehl entspricht, empfangen wird. Der verarbeitete Befehl wird gemäß einem oder mehreren akustischen Modellen analysiert, um eine mögliche akustische Übereinstimmung zu identifizieren. Der Befehl wird gleichfalls gemäß mindesten einem der Ereignisse und Zustände analysiert, um eine mögliche Kontext-Übereinstimmung zu identifizieren. Anhand der möglichen akustischen und Kontext-Übereinstimmungen stellt das System einen erkannten Befehl bereit.
Die vorliegende Erfindung hat die Aufgabe und den Vorteil der genauen Erkennung von gesprochenen System- und Anwendungssteuerungsbefehlen. Die vorliegende Erfindung stellt eine genaue Sprachbefehlserkennung bereit, selbst wenn der gesprochene Befehl lediglich aus einem einzelnen Wort besteht.
Zu den Zuständen und Ereignissen können Systemsteuerungsaktivitäten, aktive Anwendungen, frühere Befehle und eine Ereigniswarteschlange gehören. Die vorliegende Erfindung stellt also eine zusätzliche Aufgabe und Vorteil dahingehend bereit, dass der eine oder die mehreren den Kontext einschränkenden Parameter in dem Computersystem vorhanden sind oder durch dieses ausgeführt werden können, ohne dass für das Spracherkennungssystem die Notwendigkeit besteht, zusätzliche Daten bereitzustellen und Speicherplatz oder Computerspeicher zu belegen.
Die Analyse der Systemzustände und Ereignisse, um die mögliche Kontext-Übereinstimmung zu identifizieren, kann unter Verwendung einer statistischen Modellierungstechnik ausgeführt werden. Dabei können vergangene Ereignisse und Zustände verwendet werden, um das statistische Modell zu modifizieren. Dadurch erzielt die vorliegende Erfindung die weitere Aufgabe und den Vorteil der Bereitstellung eines statistischen Modells, das auf die Befehlsauswahlen eines bestimmten Sprechers oder einer Gruppe von Sprechern, die das System nutzen, zugeschnitten ist.
Diese sowie weitere Aufgaben, Vorteile und Aspekte der Erfindung werden aus der folgenden Beschreibung deutlich. In der Beschreibung erfolgt eine Bezugnahme auf die beigefügten Zeichnungen, die einen Teil der Beschreibung darstellen und in denen eine bevorzugte Ausführungsform der Erfindung gezeigt ist. Diese Ausführungsform stellt nicht unbedingt den vollen Umfang der Erfindung dar, und es erfolgt deswegen eine Bezugnahme auf die enthaltenen Ansprüche, um den Umfang der Erfindung zu interpretieren.
KURZBESCHREIBUNG DER ZEICHNUNGEN
In den Zeichnungen sind Ausführungsformen gezeigt, die gegenwärtig bevorzugt sind, es sollte jedoch klar sein, dass die Erfindung nicht auf die genauen Anordnungen und Mittel, die dargestellt sind, beschränkt ist, wobei:
1 ein Computersystem zur Spracherkennung zeigt, bei dem das Verfahren und das System der vorliegenden Erfindung verwendet werden können;
2 eine Übersichtsdarstellung einer typischen Architektur für das Computersystem von 1 ist, das einen Spracherkennungsrechner besitzt;
3 eine Übersichtsdarstellung ist, die die Architektur für einen Spracherkennungsrechner, der die vorliegende Erfindung enthält, zeigt;
4 ein Ablaufplan ist, der einen Prozess zum Erkennen gesprochener Befehle gemäß der vorliegenden Erfindung zeigt;
5 beispielhafte Systemzustände und Ereignisse zeigt, die bei der Realisierung der vorliegenden Erfindung verwendet werden können; und
6 den Prozess der Erkennung gesprochener Befehle gemäß der vorliegenden Erfindung für die beispielhaften Systemzustände und Ereignisse von 5 zeigt.
GENAUE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
In den Zeichnungen, bei denen in allen Ansichten gleiche Bezugszeichen einander entsprechende Elemente darstellen, und insbesondere in 1 ist ein Computersystem, bei dem die vorliegende Erfindung realisiert werden kann, allgemein durch das Bezugszeichen 10 angegeben. Das Computersystem 10 besteht vorzugsweise aus einem Computer 12 mit einer Zentraleinheit 14 (2), wenigstens eine Speichereinheit 16 und zugehörigen elektronische Schaltungsanordnungen (die nicht gezeigt sind). Das Computersystem 10 enthält außerdem Benutzereingabeeinheiten, und zwar eine Tastatur 18 und eine Zeigeeinheit 20, sowie ein Mikrofon 22, Lautsprecher 24 und eine Videoanzeige 26, die jeweils über geeignete Schnittstellenschaltungen mit dem Computer 10 funktionsfähig verbunden sind. Die Zeigeeinheit 20 und die Lautsprecher 24 können Teil des Computersystems 10 sein, sind jedoch für den Betrieb der Erfindung nicht erforderlich.
Dem oben beschriebenen Computersystem 10 kann im Allgemeinen einer der vielen schnellen Multimedia-Personalcomputer gerecht werden, die von Herstellern wie International Business Machine Corporation, Compaq, Hewlett Packard oder Apple Computer kommerziell verfügbar sind. Die Speichereinheit 16 enthält vorzugsweise ein elektronisches Modul eines Schreib/Lese-Speichers und eine Massenspeichereinheit wie etwa ein Magnetplattenlaufwerk. Die Zentraleinheit 14 kann ein beliebiger geeigneter Verarbeitungschip sein, beispielsweise irgendeiner der Mikroverarbeitungschips der Pentium-Familie, die von Intel Corporation kommerziell verfügbar sind.
In 2, die eine typische Architektur für ein Computersystem 10 mit einem Spracherkennungssystem veranschaulicht, enthält das System ein Betriebssystem 28 und ein Spracherkennungssystem 30. Das Spracherkennungssystem 30 enthält eine Spracherkennungsrechneranwendung 32 und eine Sprachnavigationsanwendung 34. Eine Sprach-Textverarbeitungsanwendung 36 kann außerdem enthalten sein.
In 2 sind der Spracherkennungsrechner 32, der Sprachnavigator 34 und der Textprozessor 36 als separate Anwendungsprogramme gezeigt. Es sollte jedoch angemerkt werden, dass die Erfindung in dieser Hinsicht nicht beschränkt ist, so dass diese Anwendungen als eine einzelne komplexere Anwendung realisiert sein könnten. Außerdem kann das System 30 in der Weise modifiziert sein, dass es ohne die Textverarbeitungsanwendung 36 betrieben wird, wenn das Spracherkennungssystem 30 lediglich für Befehle und zur Steuerung verwendet werden soll.
In einer bevorzugten Ausführungsform ist das Betriebssystem 28 eines der Betriebssysteme der Windows-Familie, wie etwa Windows NT, Windows '95 oder Windows '98, die von Microsoft Corporation, Redmond verfügbar sind. Die Erfindung ist jedoch in dieser Hinsicht nicht beschränkt, da sie mit jedem anderen Typ eines Computer-Betriebssystems verwendet werden kann.
Weiter in 2 wird im Allgemeinen ein analoges Audiosignal, das Sprachbefehle enthält, durch das Mikrofon 22 empfangen und in dem Computer 12 durch eine herkömmliche Audioschaltungsanordnung verarbeitet, die einen Analog/Digital-Umsetzer enthält, der eine digitalisierte Form des Signals erzeugt. Das Betriebssystem 28 überträgt das digitale Befehlssignal zu dem Spracherkennungssystem 30, wo der Befehl durch den Spracherkennungsrechner 32 erkannt wird (wie später beschrieben wird). Der erkannte Befehl wird dann als ein Textsatz an eine Anwendung gesendet, wie etwa die Sprachnavigationsanwendung 34, um die Steuerungsfunktion auszuführen.
In 3 wird ausführlicher dargestellt, wie der Spracherkennungsrechner 32 ein digitales Sprachbefehlssignal von dem Betriebssystem 28 empfängt. Das digitale Signal wird daraufhin in dem Darstellungsblock 38 in eine nützliche Datenmenge umgesetzt, indem es bei einer bestimmten feststehenden Rate, typischerweise alle 10 bis 20 Millisekunden abgetastet wird. Der Block 38 erzeugt eine neue Darstellung des Audiosignals, die dann in den folgenden Stufen des Sprachbefehl-Erkennungsprozesses verwendet werden kann, um die Wahrscheinlichkeit zu bestimmen, dass ein Abschnitt einer analysierten Signalform einem bestimmten phonetischen Ereignis entspricht. Dieser Prozess ist vorgesehen, um wahrnehmbar wichtige, vom Sprecher unabhängige Merkmale des von dem Betriebssystem 28 empfangenen digitalisierten Sprachbefehlssignals hervorzuheben. Im Klassifizierungsblock 40 wird das verarbeitete Sprachbefehlssignal verwendet, um aus dem vollständigen Satz von Steuerbefehlen eine Teilmenge von möglichen Befehlen zu identifizieren, die dem digitalisierten Sprachbefehlssignal entsprechen (wie später genau beschrieben wird). Diese Teilmenge von möglichen Befehlen wird im Block 42 gesucht, um den erkannten Befehl zu erhalten. Nachdem der Befehl erkannt wurde, wird er verwendet, um die entsprechende System- oder Anwendungsfunktion auszuführen.
In 3 wird ferner der Klassifizierungsblock 40 durch den Block 44 der akustischen Modellierung, den Block 46 der Kontextmodellierung und den Block 48 der statistischen Analyse ausgeführt. Im Block 44 der akustischen Modellierung wird das Sprachbefehlssignal durch bekannte Algorithmen verarbeitet, um vom Sprecher unabhängige akustische Modelle, die im Speicher 16 enthalten sind, an das akustische Signal des gegenwärtigen Sprechers anzupassen und ein oder mehrere möglicherweise übereinstimmende Befehle zu identifizieren. Im Block 46 verarbeiten zusätzliche Algorithmen das Befehlssignal gemäß dem gegenwärtigen Zustand des Computersystems sowie gemäß Kontextereignissen, die sich vor dem gesprochenen Befehl oder gleichzeitig mit diesem ereigneten. Im Block 48 werden die Systemzustände und Ereignisse vorzugsweise unter Verwendung bekannter statistischer Modellierungstechniken statistisch analysiert, um eine oder mehrere mögliche Befehle zu identifizieren, die mit dem Kontext übereinstimmen, in welchem der Befehl erteilt wurde. Der Block 46 kann unabhängig von der akustischen Modellierung 44 oder nach der akustischen Modellierung ausgeführt werden, um die möglichen akustischen Übereinstimmungen weiter einzugrenzen.
In 4 beginnt der Prozess zum Erkennen gesprochener Befehle im Schritt 50, in dem der Spracherkennungsrechner 32 das digitalisierte Befehlssignal von dem Betriebssystem 28 erhält. Im Schritt 52 greift der Spracherkennungsrechner 32 auf akustische Modelle aus dem Speicher 16 zu. Anschließend wird im Schritt 54 das Computersystem 10 überwacht, um den gegenwärtigen Zustand des Systems sowie System- oder Anwendungsereignisse, die vor dem gesprochenen Befehl oder gleichzeitig mit diesem ausgeführt wurden, zu erkennen. Die Zustands- und Ereignisdaten können in dem Arbeitsspeicher oder in einer Ablaufdatei, die in der Massenspeichereinheit gespeichert ist, protokolliert werden und während des Befehlserkennungsprozesses aufgerufen werden. Der Systemzustand und die Ergebnisse können alternativ während des Erkennungsprozesses einmalig geprüft oder bei einer feststehenden Rate abgetastet werden, ohne dass sie im Speicher gespeichert werden. In jedem Fall liefern die tatsächlichen Zustände und Ereignisse die Daten für die Kontextanalyse, und deshalb muss das Spracherkennungssystem der vorliegenden Erfindung keine großen Dateien der Kontextdaten speichern.
Der Spracherkennungsrechner 32 greift im Einzelnen auf Daten zu, die die Systemaktivität, aktive Anwendungen, frühere Befehle und eine Ereigniswarteschlange betreffen. Diese Datenstrukturen enthalten insbesondere Aktivitäten, wie z.B.: Benutzereingaben über Sprache oder mit Maus, Stift oder Tastatur; Betätigung von Rollmenüs oder Schaltflächen; Aktivierung von Anwendungen oder Anwendungsteilen in einer Anwendung; frühere Befehle; und leere Ereignisse, d.h., wenn während einer vorgeschriebenen Zeitperiode in einer Ereigniswarteschlange keine Aktivität registriert wird. Diese Systemzustände und Systemereignisse und insbesondere frühere Befehle können von dem Sprecher oder dem System verfolgt und verwendet werden, um neue oder abgekürzte Sprachbefehle auf der Grundlage der Häufigkeit, mit der bestimmte Befehlskombinationen verwendet werden, zu erzeugen. Diese Daten können außerdem auf der Grundlage des Ablaufs verwendet werden, um das statistische Modell so zu aktualisieren, dass es an ein Befehlsauswahlmuster eines bestimmten Anwenders angepasst werden kann.
In 4 wird ferner im Schritt 56 das Audiosignal akustisch modelliert, und die Kontextdaten werden statistisch analysiert, um jeweilige mögliche akustische und Kontext-Übereinstimmungen zu identifizieren, wie oben beschrieben wurde. Auf der Grundlage dieser Übereinstimmungen wird im Schritt 58 ein Befehl "erkannt", der dem gesprochenen Befehl entspricht. Im Schritt 60 tritt der Spracherkennungsrechner mit dem Betriebssystem 28 oder einer Anwendung wie z.B. mit dem Sprachnavigator 34 in Verbindung, um den erkannten Befehl auszuführen. Das System prüft im Schritt 62, ob ein weiteres Befehlssignal vorliegt. Wenn ein weiterer Befehl vorhanden ist, empfängt der Spracherkennungsrechner 32 das Signal, und der obige Prozess wird wiederholt, andernfalls wird die Routine angehalten.
Zur Erläuterung kann die vorliegende Erfindung unter Verwendung des beispielhaften endlichen Netzwerks aus Zuständen und Ergebnissen, das in 5 dargestellt ist, ausgeführt werden. In diesem Fall beginnt das Netzwerk im Zustand 64, wobei in dem Computersystem eine Textverarbeitungsanwendung aktiv ist. Da in diesem Zustand keine Textdatei geladen ist, enthält eine Ereignismenge die Befehle: "new" ("neu") und "open" ("Öffnen"). Durch das Ausführen von einem dieser Ereignisse wird bewirkt, dass sich das System im Zustand 66 "Datei geladen" befindet, in welchem die Ereignisse "close" ("Schließen") oder "exit" ("Beenden") ausgeführt werden können, um das System in einen Zustand 68 "keine Datei geladen" zu versetzen.
In 6, die einen beispielhaften Erkennungsprozess unter Verwendung der kontextabhängigen Systemzustände und Systemereignisse von 5 erläutert, äußert ein Sprecher einen Dateibefehl "new", der über das Mikrofon 22 empfangen wird. Im Block 72 wird ein akustisches Modell gewonnen, das in diesem Fall eine endliche Menge von Wörtern ist. Im Block 74 wird der gesprochene Befehl akustisch modelliert, und jedem Befehl in der Menge akustischer Modelle werden Erkennungswerte oder Gewichtungen zugewiesen. Das am stärksten gewichtete Wort, hier das mit 50% gewichtete Wort "new", wird als die wahrscheinlichste akustische Übereinstimmung identifiziert. Außerdem wird das Betriebssystem 28 des Computers im Schritt 76 nach gegenwärtigen oder früheren Systemzuständen oder Ereignissen überwacht. Wie im Block 78 gezeigt ist, enthalten diese Zustände lediglich den Zustand "Textverarbeitung aktiv". Im Block 80 wird der gesprochene Befehl statistisch analysiert, in diesem Fall gemäß einer endlichen Menge aus Befehlen, die gemäß der statistischen Wahrscheinlichkeit ihrer entsprechenden Ereignisse, die in einem vorgegebenen Zustand auftreten, gewichtet sind. Der mit 60% am stärksten gewichtete Befehl "new" wird als die wahrscheinlichste Kontextübereinstimmung identifiziert. An diesem Punkt bringen die beiden Modelle den gesprochenen Befehl mit dem Befehl "new" in Übereinstimmung, den die Spracherkennung als den gesprochenen Befehl auswählt.
Ebenfalls in 6 wird dann der Dateibefehl "new" ausgeführt, und das System geht in den Zustand 66 "Datei geladen". Der Sprecher äußert nun einen Dateibefehl "close" ("schließen"), der im Block 82 über das Mikrofon empfangen wird. Da herkömmliche Spracherkennungssysteme sowohl ein Sprachdiktat als auch Befehls- und Steuerfunktionen ausführen, wird angemerkt, dass die akustischen Modelle andere Ausdrücke als Befehle enthalten, wie etwa in diesem Beispiel "clothes" ("Kleidungsstücke"). Im Block 84 wird ein anderes akustisches Modell aufgerufen, das ebenfalls eine endliche Menge von Befehlen ist. Im Block 84 wird der gesprochene Befehl akustisch modelliert, und jedem Befehl in der Menge des akustischen Modells werden Erkennungswerte oder Gewichtungen zugewiesen, um eine mögliche akustische Übereinstimmung zu identifizieren. Das Betriebssystem 28 des Computers wird im Block 88 wiederum nach gegenwärtigen und früheren Systemzuständen und Ereignissen überwacht, die nun die Zustände "Textverarbeitung aktiv" und "Datei geladen" sowie das Dateiereignis "new" enthalten, wie im Block 90 gezeigt ist. Im Block 92 wird der gesprochene Befehl wiederum gemäß einer endlichen Menge von gewichteten Befehlen analysiert, und es wird eine mögliche Kontextübereinstimmung identifiziert. Gemäß der akustischen Modellierung besitzen nun die beiden Wörter "close" und "clothes" die gleiche Wahrscheinlichkeit, der gesprochene Befehl zu sein. Gemäß der Analyse der Zustände und Ereignisse lautet der übereinstimmende Befehl jedoch "close". Somit erkennt das System den Dateibefehl "close" und führt diesen aus.
Wenn die akustische Modellierung und die Kontextanalyse unterschiedliche Ausdrücke als mögliche Übereinstimmungen liefern, können die akustische Übereinstimmung und die Kontextübereinstimmung jeweils gewichtet werden, um festzulegen, welche Übereinstimmung überwiegt.
Obwohl die vorhergehende Spezifikation die bevorzugten Ausführungsformen der Erfindung erläutert und beschreibt, sollte klar sein, dass die Erfindung nicht auf die darin offenbarte genaue Konstruktion beschränkt ist. Demzufolge sollte an Stelle der vorhergehenden Spezifikation auf die folgenden Ansprüche, die den Umfang der Erfindung angeben, Bezug genommen werden.

Claims

Verfahren zur Verwendung in einem Computersystem zur Spracherkennung, das in verschiedenen Zuständen betrieben wird und bei dem ein Programm abläuft, um verschiedene Ereignisse zum Erkennen eines gesprochenen Befehls auszuführen, wobei das Verfahren die folgenden Schritte umfasst: Überwachen (54) von mindestens einem der Ereignisse und Zustände; Empfangen eines verarbeiteten Befehls, der dem gesprochenen Befehl entspricht; Analysieren (44) des verarbeiteten Befehls gemäß wenigstens einem akustischen Modell, um eine wahrscheinliche akustische Übereinstimmung zu identifizieren; Analysieren (48) des verarbeiteten Befehls, um unter Verwendung eines statistischen Modells eine wahrscheinliche Kontextübereinstimmung zu identifizieren, um zumindest eines der Ereignisse/einen der Zustände zu analysieren; und gemäß einer endlichen Menge aus Befehlen, die gemäß der statistischen Wahrscheinlichkeit ihrer entsprechenden Ereignisse, die in dem vorgegebenen Zustand auftreten, gewichtet sind, Bereitstellen eines erkannten Befehls auf der Grundlage der wahrscheinlichen akustischen und Kontext-Übereinstimmungen.
Verfahren nach Anspruch 1, bei dem die Ereignisse mindestens eine Systemsteuerungsaktivität, eine aktive Anwendung, einen früheren Befehl oder eine Ereigniswarteschlange enthalten.
Verfahren nach Anspruch 2, bei dem frühere Ereignisse und Zustände verwendet werden, um das statistische Modell zu modifizieren.
Verfahren nach Anspruch 1, das ferner die folgenden Schritte umfasst: Vorhersagen eines nächsten Ereignisses unter Verwendung des statistischen Modells; und Abschätzen des gesprochenen Befehls gemäß dem nächsten Ereignis.
Verfahren nach Anspruch 4, bei dem die Systemereignisse mindestens eine Systemsteuerungsaktivität, eine aktive Anwendung, einen früheren Befehl oder eine Ereigniswarteschlange enthalten.
Verfahren nach Anspruch 5, bei dem frühere Systemereignisse verwendet werden, um das statistische Modell zu modifizieren.
Verfahren nach Anspruch 5, das ferner den Schritt des Empfangens eines verarbeiteten Befehls, der dem gesprochenen Befehl entspricht, umfasst, wobei der Schritt des Vorhersagens ferner das Analysieren des verarbeiteten Befehls gemäß einem oder mehreren akustischen Modellen umfasst und der Schritt des Abschätzens ferner das Identifizieren eines wahrscheinlichen Befehls gemäß dem einen oder den mehreren akustischen Modellen umfasst.
System zum Erkennen eines gesprochenen Befehls, das umfasst: Mittel zum Überwachen von mindestens einem der Systemereignisse und Zustände; Mittel zum Empfangen eines verarbeiteten Befehls, der dem gesprochenen Befehl entspricht; Mittel zum Analysieren des verarbeiteten Befehls gemäß wenigstens einem akustischen Modell, um eine wahrscheinliche akustische Übereinstimmung zu identifizieren, und Verwenden eines statistischen Modells, um mindestens eines der Ereignisse/der Zustände zu analysieren, um gemäß einer endlichen Menge aus Befehlen, die gemäß der statistischen Wahrscheinlichkeit ihrer entsprechenden Ereignisse, die in dem vorgegebenen Zustand auftreten, gewichtet sind, eine mögliche Kontextübereinstimmung zu identifizieren; und Mittel zum Bereitstellen eines erkannten Befehls auf der Grundlage der wahrscheinlichen akustischen und Kontext-Übereinstimmungen.
System nach Anspruch 8, bei dem die Ereignisse mindestens eine Systemsteuerungsaktivität, eine aktive Anwendung, einen früheren Befehl oder eine Ereigniswarteschlange enthalten.
System nach Anspruch 9, bei dem frühere Ereignisse und Zustände verwendet werden, um das statistische Modell zu modifizieren.
Maschinenlesbare Speichereinheit mit darin gespeichertem Computerprogramm, das eine Vielzahl von Codeabschnitten aufweist, die durch einen Rechner ausgeführt werden können, um zu bewirken, dass der Rechner das Verfahren gemäß einem der Ansprüche 1 bis 7 ausführt.