-
HINTERGRUND DER ERFINDUNG
-
1. Technisches Gebiet
-
Diese
Erfindung betrifft das Gebiet der Computeranwendungen zur Spracherkennung
und insbesondere ein System zum Verbessern der Genauigkeit der Befehlserkennung
eines Spracherkennungssystems.
-
2. Beschreibung der verwandten
Technik
-
Spracherkennung
ist der Prozess, durch den akustische Signale, die über ein
Mikrofon empfangen werden, mittels eines Computers in Wörter umgesetzt
werden. Nachdem die Wörter
erkannt wurden, könnten
sie in einer Vielzahl von Computersoftwareanwendungen für Zwecke
wie z.B. die Herstellung von Dokumenten, die Dateneingabe sowie
als Befehl und zur Steuerung verwendet werden. Die Spracherkennung
ist im Allgemeinen in Folge der großen Vielzahl von Aussprachemöglichkeiten,
Betonungen und Sprachcharakteristiken der individuellen Sprecher ein
schwieriges Problem. Demzufolge werden Gruppen von Einschränkungen
verwendet, um Entscheidungen über
die Wärter
zu treffen, die ein Benutzer ausgesprochen hat.
-
Typische
Sprachdiktier-Erkennungssysteme verwenden zwei Gruppen von Einschränkungen,
und zwar ein akustisches Modell und ein Sprachmodell. Das akustische
Modell berücksichtigt
die Klänge,
die die Wörter
bilden, und das Sprachmodell berücksichtigt
den grammatikalischen Kontext, in welchem die Wörter verwendet werden. Diese
Modelle werden häufig
verwendet, um den Suchraum von möglichen Wörtern einzugrenzen
und um Mehrdeutigkeiten zwischen ähnlich klingenden Wörtern zu
beseitigen. Diese Modelle sind statistisch Systeme und können in
einer Vielzahl von Formen vorliegen. Das einfachste Sprachmodell
kann z.B. als ein Netzwerk mit endlichen Zuständen spezifiziert werden, bei
dem zulässige
Wörter,
die einem bestimmten Wort folgen, explizit gegeben sind. Es sind
jedoch intelligentere Sprachmodelle entwickelt worden, die in Bezug
auf eine kontextbezogene Grammatik präzisiert sind.
-
Bei
der Verwendung eines Spracherkennungssystems, um den Betrieb und
die Navigation von System- und Softwareanwendungen zu steuern, wird
eine Gruppe von Befehlen für
spezielle Aufgaben und Funktionen formuliert. Jeder Befehl besteht typischerweise
aus einem oder zwei Wörtern
oder einer kurzen Redewendung, die einen allgemeinen Ausdruck für die Ausführung einer
bestimmten Operation darstellt. Übliche
Sprachbefehls-Erkennungssysteme
verfügen
unter Umständen über eine
größere Anzahl
solcher Befehle. Damit sich der Sprecher den genauen Wortlaut der
Befehle nicht merken muss, erkennen intelligente Systeme außerdem alternative
Ausdrücke,
die die gleiche Bedeutung besitzen wie ein bekannter Befehl. Typischerweise
werden Sprachmodelle, die zur Diktiererkennung angewendet werden,
verwendet, um die gesprochenen Befehle syntaktisch einzugrenzen.
-
Da
jedoch die Befehle und ihre synonymen Gegenstücke typischerweise aus einem
Wort oder zwei Wörtern
bestehen, sind Syntax-Sprachmodelle häufig nicht sehr leistungsfähig. Deswegen
beruhen herkömmliche
Spracherkennungssysteme stark auf akustischen Modellen, um einen
Befehl aus einer Gruppe von Befehlen auszuwählen, wobei in der Folge Schwierigkeiten
auftreten, die gesprochenen Befehle zu erkennen. Wenn der gesprochene
Befehl z.B. ähnlich
wie andere Befehle klingt, führt
das Befehlserkennungssystem unter Umständen einen nicht beabsichtigten
Befehl aus oder es führt überhaupt
keinen Befehl aus. In beiden Fällen
muss der Benutzer den Befehl erneut diktieren oder mit einer anderen
Eingabeeinheit eingeben.
-
In
der US-Patentsschrift 5 867 817 wird ein Spracherkennungsmanager
für ein
am Kopf montiertes Anzeigesystem, das auf Sprache reagiert, für einen
im Wesentlichen freihändigen
Betrieb offenbart.
-
In
der US-Patentschrift 5 390 279 werden Unterteilungssprachregeln
durch den Kontext für eine
Spracherkennung offenbart. Kontexte für jede Spracherkennungsregel
werden dann festgelegt, wenn die entsprechende Regel aktiv ist.
In einem Intervall werden gemeinsame Kontexte für die Sprachregeln festgelegt
oder gemäß dieser
gemeinsamen Kontexte in Sprachregelgruppen gruppiert oder unterteilt.
Eine schnelle und wirkungsvolle Erzeugung eines Sprachmodells kann
bei der Erkennung eines vorhandenen Kontexts dann in einem zweiten
Intervall ausgeführt
werden.
-
Es
wäre demzufolge
erwünscht,
ein System zur Verbesserung der Erkennungsgenauigkeit von gesprochenen
Befehlen zur Steuerung von System- und Anwendungsoperationen bereitzustellen.
-
Es
ist eine Aufgabe der vorliegenden Erfindung, eine Technik bereitzustellen,
die die oben erwähnten
Nachteile mindert.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Gemäß der vorliegenden
Erfindung wird ein Verfahren in einem Computersystem für Spracherkennung
bereitgestellt, das in verschiedenen Zuständen betrieben wird und bei
dem ein Programm abläuft,
um verschiedene Ereignisse zum Erkennen eines gesprochenen Befehls
auszuführen,
wobei das Verfahren die folgenden Schritte umfasst: Überwachen
mindestens einer der Ereignisse und Zustände; Empfangen eines verarbeiteten
Befehls, der dem gesprochenen Befehl entspricht; Analysieren des
verarbeiteten Befehls gemäß wenigstens
einem akustischen Modell, um eine mögliche akustische Übereinstimmung
zu identifizieren; Analysieren des verarbeiteten Befehls, um unter
Verwendung eines statistischen Modells eine mögliche Kontext-Übereinstimmung
zu identifizieren, um mindestens eines der Ereignisse und Zustände zu analysieren;
und Bereitstellen eines erkannten Befehls anhand der möglichen
akustischen und Kontext-Übereinstimmungen.
-
Außerdem wird
in einem Computersystem für
Spracherkennung ein Verfahren zur Verbesserung der Genauigkeit,
mit der ein gesprochener Befehl erkannt wird, bereitgestellt, wobei
das Verfahren die folgenden Schritte umfasst: Überwachen von Systemereignissen;
Vorhersagen eines nächsten
Ereignisses unter Verwendung eines statistischen Modells, um die Systemereignisse
zu analysieren; und Abschätzen
der gesprochenen Befehle gemäß dem nächsten Ereignis.
-
Es
ist festgestellt worden, dass der Kontext, in welchem ein gesprochener
Befehl ausgeführt
wird, als ein Ersatz für
die zur Diktaterkennung verwendeten Sprachmodelle verwendet werden
kann. Insbesondere werden ereignisbasierte Datenstrukturen, die
eine Anzeige des Kontextes sind, in welchem der Befehl erteilt wird,
in dem Erkennungsprozess als Einschränkungen verwendet. Die vorliegende
Erfindung stellt also ein System zur Verbesserung der Genauigkeit
der Befehlserkennung von Spracherkennungssystemen bereit.
-
Die
vorliegende Erfindung wird insbesondere in einem Computersystem
zur Spracherkennung angewendet, das in verschiedenen Zuständen betrieben
wird und in dem ein Programm abläuft,
um verschiedene Ereignisse auszuführen. Das Verfahren und das
System werden ausgeführt,
indem Ereignisse und Zustände überwacht
werden und ein verarbeiteter Befehl, der einem gesprochenen Befehl
entspricht, empfangen wird. Der verarbeitete Befehl wird gemäß einem
oder mehreren akustischen Modellen analysiert, um eine mögliche akustische Übereinstimmung
zu identifizieren. Der Befehl wird gleichfalls gemäß mindesten
einem der Ereignisse und Zustände
analysiert, um eine mögliche
Kontext-Übereinstimmung
zu identifizieren. Anhand der möglichen akustischen
und Kontext-Übereinstimmungen
stellt das System einen erkannten Befehl bereit.
-
Die
vorliegende Erfindung hat die Aufgabe und den Vorteil der genauen
Erkennung von gesprochenen System- und Anwendungssteuerungsbefehlen.
Die vorliegende Erfindung stellt eine genaue Sprachbefehlserkennung
bereit, selbst wenn der gesprochene Befehl lediglich aus einem einzelnen
Wort besteht.
-
Zu
den Zuständen
und Ereignissen können Systemsteuerungsaktivitäten, aktive
Anwendungen, frühere
Befehle und eine Ereigniswarteschlange gehören. Die vorliegende Erfindung
stellt also eine zusätzliche
Aufgabe und Vorteil dahingehend bereit, dass der eine oder die mehreren
den Kontext einschränkenden
Parameter in dem Computersystem vorhanden sind oder durch dieses
ausgeführt
werden können,
ohne dass für
das Spracherkennungssystem die Notwendigkeit besteht, zusätzliche
Daten bereitzustellen und Speicherplatz oder Computerspeicher zu
belegen.
-
Die
Analyse der Systemzustände
und Ereignisse, um die mögliche
Kontext-Übereinstimmung
zu identifizieren, kann unter Verwendung einer statistischen Modellierungstechnik
ausgeführt
werden. Dabei können
vergangene Ereignisse und Zustände verwendet
werden, um das statistische Modell zu modifizieren. Dadurch erzielt
die vorliegende Erfindung die weitere Aufgabe und den Vorteil der
Bereitstellung eines statistischen Modells, das auf die Befehlsauswahlen
eines bestimmten Sprechers oder einer Gruppe von Sprechern, die
das System nutzen, zugeschnitten ist.
-
Diese
sowie weitere Aufgaben, Vorteile und Aspekte der Erfindung werden
aus der folgenden Beschreibung deutlich. In der Beschreibung erfolgt
eine Bezugnahme auf die beigefügten
Zeichnungen, die einen Teil der Beschreibung darstellen und in denen eine
bevorzugte Ausführungsform
der Erfindung gezeigt ist. Diese Ausführungsform stellt nicht unbedingt
den vollen Umfang der Erfindung dar, und es erfolgt deswegen eine Bezugnahme
auf die enthaltenen Ansprüche,
um den Umfang der Erfindung zu interpretieren.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
In
den Zeichnungen sind Ausführungsformen
gezeigt, die gegenwärtig
bevorzugt sind, es sollte jedoch klar sein, dass die Erfindung nicht
auf die genauen Anordnungen und Mittel, die dargestellt sind, beschränkt ist,
wobei:
-
1 ein
Computersystem zur Spracherkennung zeigt, bei dem das Verfahren
und das System der vorliegenden Erfindung verwendet werden können;
-
2 eine Übersichtsdarstellung
einer typischen Architektur für
das Computersystem von 1 ist, das einen Spracherkennungsrechner
besitzt;
-
3 eine Übersichtsdarstellung
ist, die die Architektur für
einen Spracherkennungsrechner, der die vorliegende Erfindung enthält, zeigt;
-
4 ein
Ablaufplan ist, der einen Prozess zum Erkennen gesprochener Befehle
gemäß der vorliegenden
Erfindung zeigt;
-
5 beispielhafte
Systemzustände
und Ereignisse zeigt, die bei der Realisierung der vorliegenden
Erfindung verwendet werden können;
und
-
6 den
Prozess der Erkennung gesprochener Befehle gemäß der vorliegenden Erfindung für die beispielhaften
Systemzustände
und Ereignisse von 5 zeigt.
-
GENAUE BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSFORM
-
In
den Zeichnungen, bei denen in allen Ansichten gleiche Bezugszeichen
einander entsprechende Elemente darstellen, und insbesondere in 1 ist
ein Computersystem, bei dem die vorliegende Erfindung realisiert
werden kann, allgemein durch das Bezugszeichen 10 angegeben.
Das Computersystem 10 besteht vorzugsweise aus einem Computer 12 mit
einer Zentraleinheit 14 (2), wenigstens eine
Speichereinheit 16 und zugehörigen elektronische Schaltungsanordnungen
(die nicht gezeigt sind). Das Computersystem 10 enthält außerdem Benutzereingabeeinheiten,
und zwar eine Tastatur 18 und eine Zeigeeinheit 20,
sowie ein Mikrofon 22, Lautsprecher 24 und eine
Videoanzeige 26, die jeweils über geeignete Schnittstellenschaltungen
mit dem Computer 10 funktionsfähig verbunden sind. Die Zeigeeinheit 20 und
die Lautsprecher 24 können
Teil des Computersystems 10 sein, sind jedoch für den Betrieb
der Erfindung nicht erforderlich.
-
Dem
oben beschriebenen Computersystem 10 kann im Allgemeinen
einer der vielen schnellen Multimedia-Personalcomputer gerecht werden,
die von Herstellern wie International Business Machine Corporation,
Compaq, Hewlett Packard oder Apple Computer kommerziell verfügbar sind.
Die Speichereinheit 16 enthält vorzugsweise ein elektronisches Modul
eines Schreib/Lese-Speichers
und eine Massenspeichereinheit wie etwa ein Magnetplattenlaufwerk.
Die Zentraleinheit 14 kann ein beliebiger geeigneter Verarbeitungschip
sein, beispielsweise irgendeiner der Mikroverarbeitungschips der
Pentium-Familie, die von Intel Corporation kommerziell verfügbar sind.
-
In 2,
die eine typische Architektur für
ein Computersystem 10 mit einem Spracherkennungssystem
veranschaulicht, enthält
das System ein Betriebssystem 28 und ein Spracherkennungssystem 30.
Das Spracherkennungssystem 30 enthält eine Spracherkennungsrechneranwendung 32 und
eine Sprachnavigationsanwendung 34. Eine Sprach-Textverarbeitungsanwendung 36 kann
außerdem
enthalten sein.
-
In 2 sind
der Spracherkennungsrechner 32, der Sprachnavigator 34 und
der Textprozessor 36 als separate Anwendungsprogramme gezeigt.
Es sollte jedoch angemerkt werden, dass die Erfindung in dieser
Hinsicht nicht beschränkt
ist, so dass diese Anwendungen als eine einzelne komplexere Anwendung
realisiert sein könnten.
Außerdem
kann das System 30 in der Weise modifiziert sein, dass
es ohne die Textverarbeitungsanwendung 36 betrieben wird,
wenn das Spracherkennungssystem 30 lediglich für Befehle
und zur Steuerung verwendet werden soll.
-
In
einer bevorzugten Ausführungsform
ist das Betriebssystem 28 eines der Betriebssysteme der
Windows-Familie, wie etwa Windows NT, Windows '95 oder Windows '98, die von Microsoft Corporation, Redmond
verfügbar
sind. Die Erfindung ist jedoch in dieser Hinsicht nicht beschränkt, da
sie mit jedem anderen Typ eines Computer-Betriebssystems verwendet
werden kann.
-
Weiter
in 2 wird im Allgemeinen ein analoges Audiosignal,
das Sprachbefehle enthält,
durch das Mikrofon 22 empfangen und in dem Computer 12 durch
eine herkömmliche
Audioschaltungsanordnung verarbeitet, die einen Analog/Digital-Umsetzer enthält, der
eine digitalisierte Form des Signals erzeugt. Das Betriebssystem 28 überträgt das digitale Befehlssignal
zu dem Spracherkennungssystem 30, wo der Befehl durch den
Spracherkennungsrechner 32 erkannt wird (wie später beschrieben
wird). Der erkannte Befehl wird dann als ein Textsatz an eine Anwendung
gesendet, wie etwa die Sprachnavigationsanwendung 34, um
die Steuerungsfunktion auszuführen.
-
In 3 wird
ausführlicher
dargestellt, wie der Spracherkennungsrechner 32 ein digitales Sprachbefehlssignal
von dem Betriebssystem 28 empfängt. Das digitale Signal wird
daraufhin in dem Darstellungsblock 38 in eine nützliche
Datenmenge umgesetzt, indem es bei einer bestimmten feststehenden
Rate, typischerweise alle 10 bis 20 Millisekunden abgetastet wird.
Der Block 38 erzeugt eine neue Darstellung des Audiosignals,
die dann in den folgenden Stufen des Sprachbefehl-Erkennungsprozesses
verwendet werden kann, um die Wahrscheinlichkeit zu bestimmen, dass
ein Abschnitt einer analysierten Signalform einem bestimmten phonetischen Ereignis
entspricht. Dieser Prozess ist vorgesehen, um wahrnehmbar wichtige,
vom Sprecher unabhängige
Merkmale des von dem Betriebssystem 28 empfangenen digitalisierten
Sprachbefehlssignals hervorzuheben. Im Klassifizierungsblock 40 wird
das verarbeitete Sprachbefehlssignal verwendet, um aus dem vollständigen Satz
von Steuerbefehlen eine Teilmenge von möglichen Befehlen zu identifizieren,
die dem digitalisierten Sprachbefehlssignal entsprechen (wie später genau
beschrieben wird). Diese Teilmenge von möglichen Befehlen wird im Block 42 gesucht, um
den erkannten Befehl zu erhalten. Nachdem der Befehl erkannt wurde,
wird er verwendet, um die entsprechende System- oder Anwendungsfunktion
auszuführen.
-
In 3 wird
ferner der Klassifizierungsblock 40 durch den Block 44 der
akustischen Modellierung, den Block 46 der Kontextmodellierung
und den Block 48 der statistischen Analyse ausgeführt. Im
Block 44 der akustischen Modellierung wird das Sprachbefehlssignal
durch bekannte Algorithmen verarbeitet, um vom Sprecher unabhängige akustische
Modelle, die im Speicher 16 enthalten sind, an das akustische
Signal des gegenwärtigen
Sprechers anzupassen und ein oder mehrere möglicherweise übereinstimmende
Befehle zu identifizieren. Im Block 46 verarbeiten zusätzliche
Algorithmen das Befehlssignal gemäß dem gegenwärtigen Zustand
des Computersystems sowie gemäß Kontextereignissen,
die sich vor dem gesprochenen Befehl oder gleichzeitig mit diesem
ereigneten. Im Block 48 werden die Systemzustände und
Ereignisse vorzugsweise unter Verwendung bekannter statistischer
Modellierungstechniken statistisch analysiert, um eine oder mehrere
mögliche
Befehle zu identifizieren, die mit dem Kontext übereinstimmen, in welchem der
Befehl erteilt wurde. Der Block 46 kann unabhängig von
der akustischen Modellierung 44 oder nach der akustischen
Modellierung ausgeführt
werden, um die möglichen
akustischen Übereinstimmungen
weiter einzugrenzen.
-
In 4 beginnt
der Prozess zum Erkennen gesprochener Befehle im Schritt 50,
in dem der Spracherkennungsrechner 32 das digitalisierte
Befehlssignal von dem Betriebssystem 28 erhält. Im Schritt 52 greift
der Spracherkennungsrechner 32 auf akustische Modelle aus
dem Speicher 16 zu. Anschließend wird im Schritt 54 das
Computersystem 10 überwacht,
um den gegenwärtigen
Zustand des Systems sowie System- oder Anwendungsereignisse, die
vor dem gesprochenen Befehl oder gleichzeitig mit diesem ausgeführt wurden,
zu erkennen. Die Zustands- und Ereignisdaten können in dem Arbeitsspeicher oder in
einer Ablaufdatei, die in der Massenspeichereinheit gespeichert
ist, protokolliert werden und während
des Befehlserkennungsprozesses aufgerufen werden. Der Systemzustand
und die Ergebnisse können
alternativ während
des Erkennungsprozesses einmalig geprüft oder bei einer feststehenden
Rate abgetastet werden, ohne dass sie im Speicher gespeichert werden.
In jedem Fall liefern die tatsächlichen
Zustände
und Ereignisse die Daten für
die Kontextanalyse, und deshalb muss das Spracherkennungssystem
der vorliegenden Erfindung keine großen Dateien der Kontextdaten
speichern.
-
Der
Spracherkennungsrechner 32 greift im Einzelnen auf Daten
zu, die die Systemaktivität,
aktive Anwendungen, frühere
Befehle und eine Ereigniswarteschlange betreffen. Diese Datenstrukturen
enthalten insbesondere Aktivitäten,
wie z.B.: Benutzereingaben über
Sprache oder mit Maus, Stift oder Tastatur; Betätigung von Rollmenüs oder Schaltflächen; Aktivierung
von Anwendungen oder Anwendungsteilen in einer Anwendung; frühere Befehle;
und leere Ereignisse, d.h., wenn während einer vorgeschriebenen
Zeitperiode in einer Ereigniswarteschlange keine Aktivität registriert
wird. Diese Systemzustände
und Systemereignisse und insbesondere frühere Befehle können von
dem Sprecher oder dem System verfolgt und verwendet werden, um neue
oder abgekürzte Sprachbefehle
auf der Grundlage der Häufigkeit,
mit der bestimmte Befehlskombinationen verwendet werden, zu erzeugen.
Diese Daten können
außerdem
auf der Grundlage des Ablaufs verwendet werden, um das statistische
Modell so zu aktualisieren, dass es an ein Befehlsauswahlmuster
eines bestimmten Anwenders angepasst werden kann.
-
In 4 wird
ferner im Schritt 56 das Audiosignal akustisch modelliert,
und die Kontextdaten werden statistisch analysiert, um jeweilige
mögliche akustische
und Kontext-Übereinstimmungen
zu identifizieren, wie oben beschrieben wurde. Auf der Grundlage
dieser Übereinstimmungen
wird im Schritt 58 ein Befehl "erkannt", der dem gesprochenen Befehl entspricht.
Im Schritt 60 tritt der Spracherkennungsrechner mit dem
Betriebssystem 28 oder einer Anwendung wie z.B. mit dem
Sprachnavigator 34 in Verbindung, um den erkannten Befehl
auszuführen. Das
System prüft
im Schritt 62, ob ein weiteres Befehlssignal vorliegt.
Wenn ein weiterer Befehl vorhanden ist, empfängt der Spracherkennungsrechner 32 das
Signal, und der obige Prozess wird wiederholt, andernfalls wird
die Routine angehalten.
-
Zur
Erläuterung
kann die vorliegende Erfindung unter Verwendung des beispielhaften
endlichen Netzwerks aus Zuständen
und Ergebnissen, das in 5 dargestellt ist, ausgeführt werden.
In diesem Fall beginnt das Netzwerk im Zustand 64, wobei
in dem Computersystem eine Textverarbeitungsanwendung aktiv ist.
Da in diesem Zustand keine Textdatei geladen ist, enthält eine
Ereignismenge die Befehle: "new" ("neu") und "open" ("Öffnen"). Durch das Ausführen von einem dieser Ereignisse
wird bewirkt, dass sich das System im Zustand 66 "Datei geladen" befindet, in welchem
die Ereignisse "close" ("Schließen") oder "exit" ("Beenden") ausgeführt werden können, um
das System in einen Zustand 68 "keine Datei geladen" zu versetzen.
-
In 6,
die einen beispielhaften Erkennungsprozess unter Verwendung der
kontextabhängigen
Systemzustände
und Systemereignisse von 5 erläutert, äußert ein Sprecher einen Dateibefehl "new", der über das
Mikrofon 22 empfangen wird. Im Block 72 wird ein
akustisches Modell gewonnen, das in diesem Fall eine endliche Menge
von Wörtern ist.
Im Block 74 wird der gesprochene Befehl akustisch modelliert,
und jedem Befehl in der Menge akustischer Modelle werden Erkennungswerte
oder Gewichtungen zugewiesen. Das am stärksten gewichtete Wort, hier
das mit 50% gewichtete Wort "new", wird als die wahrscheinlichste
akustische Übereinstimmung
identifiziert. Außerdem
wird das Betriebssystem 28 des Computers im Schritt 76 nach gegenwärtigen oder
früheren
Systemzuständen
oder Ereignissen überwacht.
Wie im Block 78 gezeigt ist, enthalten diese Zustände lediglich
den Zustand "Textverarbeitung
aktiv". Im Block 80 wird
der gesprochene Befehl statistisch analysiert, in diesem Fall gemäß einer
endlichen Menge aus Befehlen, die gemäß der statistischen Wahrscheinlichkeit
ihrer entsprechenden Ereignisse, die in einem vorgegebenen Zustand
auftreten, gewichtet sind. Der mit 60% am stärksten gewichtete Befehl "new" wird als die wahrscheinlichste
Kontextübereinstimmung
identifiziert. An diesem Punkt bringen die beiden Modelle den gesprochenen
Befehl mit dem Befehl "new" in Übereinstimmung,
den die Spracherkennung als den gesprochenen Befehl auswählt.
-
Ebenfalls
in 6 wird dann der Dateibefehl "new" ausgeführt, und
das System geht in den Zustand 66 "Datei geladen". Der Sprecher äußert nun einen Dateibefehl "close" ("schließen"), der im Block 82 über das
Mikrofon empfangen wird. Da herkömmliche
Spracherkennungssysteme sowohl ein Sprachdiktat als auch Befehls-
und Steuerfunktionen ausführen,
wird angemerkt, dass die akustischen Modelle andere Ausdrücke als
Befehle enthalten, wie etwa in diesem Beispiel "clothes" ("Kleidungsstücke"). Im Block 84 wird
ein anderes akustisches Modell aufgerufen, das ebenfalls eine endliche
Menge von Befehlen ist. Im Block 84 wird der gesprochene
Befehl akustisch modelliert, und jedem Befehl in der Menge des akustischen
Modells werden Erkennungswerte oder Gewichtungen zugewiesen, um
eine mögliche akustische Übereinstimmung
zu identifizieren. Das Betriebssystem 28 des Computers
wird im Block 88 wiederum nach gegenwärtigen und früheren Systemzuständen und
Ereignissen überwacht,
die nun die Zustände "Textverarbeitung
aktiv" und "Datei geladen" sowie das Dateiereignis "new" enthalten, wie im Block 90 gezeigt
ist. Im Block 92 wird der gesprochene Befehl wiederum gemäß einer
endlichen Menge von gewichteten Befehlen analysiert, und es wird eine
mögliche
Kontextübereinstimmung
identifiziert. Gemäß der akustischen
Modellierung besitzen nun die beiden Wörter "close" und "clothes" die gleiche Wahrscheinlichkeit, der
gesprochene Befehl zu sein. Gemäß der Analyse
der Zustände
und Ereignisse lautet der übereinstimmende
Befehl jedoch "close". Somit erkennt das
System den Dateibefehl "close" und führt diesen
aus.
-
Wenn
die akustische Modellierung und die Kontextanalyse unterschiedliche
Ausdrücke
als mögliche Übereinstimmungen
liefern, können
die akustische Übereinstimmung
und die Kontextübereinstimmung
jeweils gewichtet werden, um festzulegen, welche Übereinstimmung überwiegt.
-
Obwohl
die vorhergehende Spezifikation die bevorzugten Ausführungsformen
der Erfindung erläutert
und beschreibt, sollte klar sein, dass die Erfindung nicht auf die
darin offenbarte genaue Konstruktion beschränkt ist. Demzufolge sollte
an Stelle der vorhergehenden Spezifikation auf die folgenden Ansprüche, die
den Umfang der Erfindung angeben, Bezug genommen werden.