DE60023398T2 - Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen - Google Patents

Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen Download PDF

Info

Publication number
DE60023398T2
DE60023398T2 DE60023398T DE60023398T DE60023398T2 DE 60023398 T2 DE60023398 T2 DE 60023398T2 DE 60023398 T DE60023398 T DE 60023398T DE 60023398 T DE60023398 T DE 60023398T DE 60023398 T2 DE60023398 T2 DE 60023398T2
Authority
DE
Germany
Prior art keywords
command
events
states
acoustic
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60023398T
Other languages
English (en)
Other versions
DE60023398D1 (de
Inventor
Barbara Elaine Winchester Ballard
James R. Winchester Lewis
Amado. Winchester Nassiff
Kerry A. Winchester Ortega
Ronald E. Winchester Vanbuskirk
Huifang Winchester Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE60023398D1 publication Critical patent/DE60023398D1/de
Application granted granted Critical
Publication of DE60023398T2 publication Critical patent/DE60023398T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Traffic Control Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Technisches Gebiet
  • Diese Erfindung betrifft das Gebiet der Computeranwendungen zur Spracherkennung und insbesondere ein System zum Verbessern der Genauigkeit der Befehlserkennung eines Spracherkennungssystems.
  • 2. Beschreibung der verwandten Technik
  • Spracherkennung ist der Prozess, durch den akustische Signale, die über ein Mikrofon empfangen werden, mittels eines Computers in Wörter umgesetzt werden. Nachdem die Wörter erkannt wurden, könnten sie in einer Vielzahl von Computersoftwareanwendungen für Zwecke wie z.B. die Herstellung von Dokumenten, die Dateneingabe sowie als Befehl und zur Steuerung verwendet werden. Die Spracherkennung ist im Allgemeinen in Folge der großen Vielzahl von Aussprachemöglichkeiten, Betonungen und Sprachcharakteristiken der individuellen Sprecher ein schwieriges Problem. Demzufolge werden Gruppen von Einschränkungen verwendet, um Entscheidungen über die Wärter zu treffen, die ein Benutzer ausgesprochen hat.
  • Typische Sprachdiktier-Erkennungssysteme verwenden zwei Gruppen von Einschränkungen, und zwar ein akustisches Modell und ein Sprachmodell. Das akustische Modell berücksichtigt die Klänge, die die Wörter bilden, und das Sprachmodell berücksichtigt den grammatikalischen Kontext, in welchem die Wörter verwendet werden. Diese Modelle werden häufig verwendet, um den Suchraum von möglichen Wörtern einzugrenzen und um Mehrdeutigkeiten zwischen ähnlich klingenden Wörtern zu beseitigen. Diese Modelle sind statistisch Systeme und können in einer Vielzahl von Formen vorliegen. Das einfachste Sprachmodell kann z.B. als ein Netzwerk mit endlichen Zuständen spezifiziert werden, bei dem zulässige Wörter, die einem bestimmten Wort folgen, explizit gegeben sind. Es sind jedoch intelligentere Sprachmodelle entwickelt worden, die in Bezug auf eine kontextbezogene Grammatik präzisiert sind.
  • Bei der Verwendung eines Spracherkennungssystems, um den Betrieb und die Navigation von System- und Softwareanwendungen zu steuern, wird eine Gruppe von Befehlen für spezielle Aufgaben und Funktionen formuliert. Jeder Befehl besteht typischerweise aus einem oder zwei Wörtern oder einer kurzen Redewendung, die einen allgemeinen Ausdruck für die Ausführung einer bestimmten Operation darstellt. Übliche Sprachbefehls-Erkennungssysteme verfügen unter Umständen über eine größere Anzahl solcher Befehle. Damit sich der Sprecher den genauen Wortlaut der Befehle nicht merken muss, erkennen intelligente Systeme außerdem alternative Ausdrücke, die die gleiche Bedeutung besitzen wie ein bekannter Befehl. Typischerweise werden Sprachmodelle, die zur Diktiererkennung angewendet werden, verwendet, um die gesprochenen Befehle syntaktisch einzugrenzen.
  • Da jedoch die Befehle und ihre synonymen Gegenstücke typischerweise aus einem Wort oder zwei Wörtern bestehen, sind Syntax-Sprachmodelle häufig nicht sehr leistungsfähig. Deswegen beruhen herkömmliche Spracherkennungssysteme stark auf akustischen Modellen, um einen Befehl aus einer Gruppe von Befehlen auszuwählen, wobei in der Folge Schwierigkeiten auftreten, die gesprochenen Befehle zu erkennen. Wenn der gesprochene Befehl z.B. ähnlich wie andere Befehle klingt, führt das Befehlserkennungssystem unter Umständen einen nicht beabsichtigten Befehl aus oder es führt überhaupt keinen Befehl aus. In beiden Fällen muss der Benutzer den Befehl erneut diktieren oder mit einer anderen Eingabeeinheit eingeben.
  • In der US-Patentsschrift 5 867 817 wird ein Spracherkennungsmanager für ein am Kopf montiertes Anzeigesystem, das auf Sprache reagiert, für einen im Wesentlichen freihändigen Betrieb offenbart.
  • In der US-Patentschrift 5 390 279 werden Unterteilungssprachregeln durch den Kontext für eine Spracherkennung offenbart. Kontexte für jede Spracherkennungsregel werden dann festgelegt, wenn die entsprechende Regel aktiv ist. In einem Intervall werden gemeinsame Kontexte für die Sprachregeln festgelegt oder gemäß dieser gemeinsamen Kontexte in Sprachregelgruppen gruppiert oder unterteilt. Eine schnelle und wirkungsvolle Erzeugung eines Sprachmodells kann bei der Erkennung eines vorhandenen Kontexts dann in einem zweiten Intervall ausgeführt werden.
  • Es wäre demzufolge erwünscht, ein System zur Verbesserung der Erkennungsgenauigkeit von gesprochenen Befehlen zur Steuerung von System- und Anwendungsoperationen bereitzustellen.
  • Es ist eine Aufgabe der vorliegenden Erfindung, eine Technik bereitzustellen, die die oben erwähnten Nachteile mindert.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung wird ein Verfahren in einem Computersystem für Spracherkennung bereitgestellt, das in verschiedenen Zuständen betrieben wird und bei dem ein Programm abläuft, um verschiedene Ereignisse zum Erkennen eines gesprochenen Befehls auszuführen, wobei das Verfahren die folgenden Schritte umfasst: Überwachen mindestens einer der Ereignisse und Zustände; Empfangen eines verarbeiteten Befehls, der dem gesprochenen Befehl entspricht; Analysieren des verarbeiteten Befehls gemäß wenigstens einem akustischen Modell, um eine mögliche akustische Übereinstimmung zu identifizieren; Analysieren des verarbeiteten Befehls, um unter Verwendung eines statistischen Modells eine mögliche Kontext-Übereinstimmung zu identifizieren, um mindestens eines der Ereignisse und Zustände zu analysieren; und Bereitstellen eines erkannten Befehls anhand der möglichen akustischen und Kontext-Übereinstimmungen.
  • Außerdem wird in einem Computersystem für Spracherkennung ein Verfahren zur Verbesserung der Genauigkeit, mit der ein gesprochener Befehl erkannt wird, bereitgestellt, wobei das Verfahren die folgenden Schritte umfasst: Überwachen von Systemereignissen; Vorhersagen eines nächsten Ereignisses unter Verwendung eines statistischen Modells, um die Systemereignisse zu analysieren; und Abschätzen der gesprochenen Befehle gemäß dem nächsten Ereignis.
  • Es ist festgestellt worden, dass der Kontext, in welchem ein gesprochener Befehl ausgeführt wird, als ein Ersatz für die zur Diktaterkennung verwendeten Sprachmodelle verwendet werden kann. Insbesondere werden ereignisbasierte Datenstrukturen, die eine Anzeige des Kontextes sind, in welchem der Befehl erteilt wird, in dem Erkennungsprozess als Einschränkungen verwendet. Die vorliegende Erfindung stellt also ein System zur Verbesserung der Genauigkeit der Befehlserkennung von Spracherkennungssystemen bereit.
  • Die vorliegende Erfindung wird insbesondere in einem Computersystem zur Spracherkennung angewendet, das in verschiedenen Zuständen betrieben wird und in dem ein Programm abläuft, um verschiedene Ereignisse auszuführen. Das Verfahren und das System werden ausgeführt, indem Ereignisse und Zustände überwacht werden und ein verarbeiteter Befehl, der einem gesprochenen Befehl entspricht, empfangen wird. Der verarbeitete Befehl wird gemäß einem oder mehreren akustischen Modellen analysiert, um eine mögliche akustische Übereinstimmung zu identifizieren. Der Befehl wird gleichfalls gemäß mindesten einem der Ereignisse und Zustände analysiert, um eine mögliche Kontext-Übereinstimmung zu identifizieren. Anhand der möglichen akustischen und Kontext-Übereinstimmungen stellt das System einen erkannten Befehl bereit.
  • Die vorliegende Erfindung hat die Aufgabe und den Vorteil der genauen Erkennung von gesprochenen System- und Anwendungssteuerungsbefehlen. Die vorliegende Erfindung stellt eine genaue Sprachbefehlserkennung bereit, selbst wenn der gesprochene Befehl lediglich aus einem einzelnen Wort besteht.
  • Zu den Zuständen und Ereignissen können Systemsteuerungsaktivitäten, aktive Anwendungen, frühere Befehle und eine Ereigniswarteschlange gehören. Die vorliegende Erfindung stellt also eine zusätzliche Aufgabe und Vorteil dahingehend bereit, dass der eine oder die mehreren den Kontext einschränkenden Parameter in dem Computersystem vorhanden sind oder durch dieses ausgeführt werden können, ohne dass für das Spracherkennungssystem die Notwendigkeit besteht, zusätzliche Daten bereitzustellen und Speicherplatz oder Computerspeicher zu belegen.
  • Die Analyse der Systemzustände und Ereignisse, um die mögliche Kontext-Übereinstimmung zu identifizieren, kann unter Verwendung einer statistischen Modellierungstechnik ausgeführt werden. Dabei können vergangene Ereignisse und Zustände verwendet werden, um das statistische Modell zu modifizieren. Dadurch erzielt die vorliegende Erfindung die weitere Aufgabe und den Vorteil der Bereitstellung eines statistischen Modells, das auf die Befehlsauswahlen eines bestimmten Sprechers oder einer Gruppe von Sprechern, die das System nutzen, zugeschnitten ist.
  • Diese sowie weitere Aufgaben, Vorteile und Aspekte der Erfindung werden aus der folgenden Beschreibung deutlich. In der Beschreibung erfolgt eine Bezugnahme auf die beigefügten Zeichnungen, die einen Teil der Beschreibung darstellen und in denen eine bevorzugte Ausführungsform der Erfindung gezeigt ist. Diese Ausführungsform stellt nicht unbedingt den vollen Umfang der Erfindung dar, und es erfolgt deswegen eine Bezugnahme auf die enthaltenen Ansprüche, um den Umfang der Erfindung zu interpretieren.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • In den Zeichnungen sind Ausführungsformen gezeigt, die gegenwärtig bevorzugt sind, es sollte jedoch klar sein, dass die Erfindung nicht auf die genauen Anordnungen und Mittel, die dargestellt sind, beschränkt ist, wobei:
  • 1 ein Computersystem zur Spracherkennung zeigt, bei dem das Verfahren und das System der vorliegenden Erfindung verwendet werden können;
  • 2 eine Übersichtsdarstellung einer typischen Architektur für das Computersystem von 1 ist, das einen Spracherkennungsrechner besitzt;
  • 3 eine Übersichtsdarstellung ist, die die Architektur für einen Spracherkennungsrechner, der die vorliegende Erfindung enthält, zeigt;
  • 4 ein Ablaufplan ist, der einen Prozess zum Erkennen gesprochener Befehle gemäß der vorliegenden Erfindung zeigt;
  • 5 beispielhafte Systemzustände und Ereignisse zeigt, die bei der Realisierung der vorliegenden Erfindung verwendet werden können; und
  • 6 den Prozess der Erkennung gesprochener Befehle gemäß der vorliegenden Erfindung für die beispielhaften Systemzustände und Ereignisse von 5 zeigt.
  • GENAUE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • In den Zeichnungen, bei denen in allen Ansichten gleiche Bezugszeichen einander entsprechende Elemente darstellen, und insbesondere in 1 ist ein Computersystem, bei dem die vorliegende Erfindung realisiert werden kann, allgemein durch das Bezugszeichen 10 angegeben. Das Computersystem 10 besteht vorzugsweise aus einem Computer 12 mit einer Zentraleinheit 14 (2), wenigstens eine Speichereinheit 16 und zugehörigen elektronische Schaltungsanordnungen (die nicht gezeigt sind). Das Computersystem 10 enthält außerdem Benutzereingabeeinheiten, und zwar eine Tastatur 18 und eine Zeigeeinheit 20, sowie ein Mikrofon 22, Lautsprecher 24 und eine Videoanzeige 26, die jeweils über geeignete Schnittstellenschaltungen mit dem Computer 10 funktionsfähig verbunden sind. Die Zeigeeinheit 20 und die Lautsprecher 24 können Teil des Computersystems 10 sein, sind jedoch für den Betrieb der Erfindung nicht erforderlich.
  • Dem oben beschriebenen Computersystem 10 kann im Allgemeinen einer der vielen schnellen Multimedia-Personalcomputer gerecht werden, die von Herstellern wie International Business Machine Corporation, Compaq, Hewlett Packard oder Apple Computer kommerziell verfügbar sind. Die Speichereinheit 16 enthält vorzugsweise ein elektronisches Modul eines Schreib/Lese-Speichers und eine Massenspeichereinheit wie etwa ein Magnetplattenlaufwerk. Die Zentraleinheit 14 kann ein beliebiger geeigneter Verarbeitungschip sein, beispielsweise irgendeiner der Mikroverarbeitungschips der Pentium-Familie, die von Intel Corporation kommerziell verfügbar sind.
  • In 2, die eine typische Architektur für ein Computersystem 10 mit einem Spracherkennungssystem veranschaulicht, enthält das System ein Betriebssystem 28 und ein Spracherkennungssystem 30. Das Spracherkennungssystem 30 enthält eine Spracherkennungsrechneranwendung 32 und eine Sprachnavigationsanwendung 34. Eine Sprach-Textverarbeitungsanwendung 36 kann außerdem enthalten sein.
  • In 2 sind der Spracherkennungsrechner 32, der Sprachnavigator 34 und der Textprozessor 36 als separate Anwendungsprogramme gezeigt. Es sollte jedoch angemerkt werden, dass die Erfindung in dieser Hinsicht nicht beschränkt ist, so dass diese Anwendungen als eine einzelne komplexere Anwendung realisiert sein könnten. Außerdem kann das System 30 in der Weise modifiziert sein, dass es ohne die Textverarbeitungsanwendung 36 betrieben wird, wenn das Spracherkennungssystem 30 lediglich für Befehle und zur Steuerung verwendet werden soll.
  • In einer bevorzugten Ausführungsform ist das Betriebssystem 28 eines der Betriebssysteme der Windows-Familie, wie etwa Windows NT, Windows '95 oder Windows '98, die von Microsoft Corporation, Redmond verfügbar sind. Die Erfindung ist jedoch in dieser Hinsicht nicht beschränkt, da sie mit jedem anderen Typ eines Computer-Betriebssystems verwendet werden kann.
  • Weiter in 2 wird im Allgemeinen ein analoges Audiosignal, das Sprachbefehle enthält, durch das Mikrofon 22 empfangen und in dem Computer 12 durch eine herkömmliche Audioschaltungsanordnung verarbeitet, die einen Analog/Digital-Umsetzer enthält, der eine digitalisierte Form des Signals erzeugt. Das Betriebssystem 28 überträgt das digitale Befehlssignal zu dem Spracherkennungssystem 30, wo der Befehl durch den Spracherkennungsrechner 32 erkannt wird (wie später beschrieben wird). Der erkannte Befehl wird dann als ein Textsatz an eine Anwendung gesendet, wie etwa die Sprachnavigationsanwendung 34, um die Steuerungsfunktion auszuführen.
  • In 3 wird ausführlicher dargestellt, wie der Spracherkennungsrechner 32 ein digitales Sprachbefehlssignal von dem Betriebssystem 28 empfängt. Das digitale Signal wird daraufhin in dem Darstellungsblock 38 in eine nützliche Datenmenge umgesetzt, indem es bei einer bestimmten feststehenden Rate, typischerweise alle 10 bis 20 Millisekunden abgetastet wird. Der Block 38 erzeugt eine neue Darstellung des Audiosignals, die dann in den folgenden Stufen des Sprachbefehl-Erkennungsprozesses verwendet werden kann, um die Wahrscheinlichkeit zu bestimmen, dass ein Abschnitt einer analysierten Signalform einem bestimmten phonetischen Ereignis entspricht. Dieser Prozess ist vorgesehen, um wahrnehmbar wichtige, vom Sprecher unabhängige Merkmale des von dem Betriebssystem 28 empfangenen digitalisierten Sprachbefehlssignals hervorzuheben. Im Klassifizierungsblock 40 wird das verarbeitete Sprachbefehlssignal verwendet, um aus dem vollständigen Satz von Steuerbefehlen eine Teilmenge von möglichen Befehlen zu identifizieren, die dem digitalisierten Sprachbefehlssignal entsprechen (wie später genau beschrieben wird). Diese Teilmenge von möglichen Befehlen wird im Block 42 gesucht, um den erkannten Befehl zu erhalten. Nachdem der Befehl erkannt wurde, wird er verwendet, um die entsprechende System- oder Anwendungsfunktion auszuführen.
  • In 3 wird ferner der Klassifizierungsblock 40 durch den Block 44 der akustischen Modellierung, den Block 46 der Kontextmodellierung und den Block 48 der statistischen Analyse ausgeführt. Im Block 44 der akustischen Modellierung wird das Sprachbefehlssignal durch bekannte Algorithmen verarbeitet, um vom Sprecher unabhängige akustische Modelle, die im Speicher 16 enthalten sind, an das akustische Signal des gegenwärtigen Sprechers anzupassen und ein oder mehrere möglicherweise übereinstimmende Befehle zu identifizieren. Im Block 46 verarbeiten zusätzliche Algorithmen das Befehlssignal gemäß dem gegenwärtigen Zustand des Computersystems sowie gemäß Kontextereignissen, die sich vor dem gesprochenen Befehl oder gleichzeitig mit diesem ereigneten. Im Block 48 werden die Systemzustände und Ereignisse vorzugsweise unter Verwendung bekannter statistischer Modellierungstechniken statistisch analysiert, um eine oder mehrere mögliche Befehle zu identifizieren, die mit dem Kontext übereinstimmen, in welchem der Befehl erteilt wurde. Der Block 46 kann unabhängig von der akustischen Modellierung 44 oder nach der akustischen Modellierung ausgeführt werden, um die möglichen akustischen Übereinstimmungen weiter einzugrenzen.
  • In 4 beginnt der Prozess zum Erkennen gesprochener Befehle im Schritt 50, in dem der Spracherkennungsrechner 32 das digitalisierte Befehlssignal von dem Betriebssystem 28 erhält. Im Schritt 52 greift der Spracherkennungsrechner 32 auf akustische Modelle aus dem Speicher 16 zu. Anschließend wird im Schritt 54 das Computersystem 10 überwacht, um den gegenwärtigen Zustand des Systems sowie System- oder Anwendungsereignisse, die vor dem gesprochenen Befehl oder gleichzeitig mit diesem ausgeführt wurden, zu erkennen. Die Zustands- und Ereignisdaten können in dem Arbeitsspeicher oder in einer Ablaufdatei, die in der Massenspeichereinheit gespeichert ist, protokolliert werden und während des Befehlserkennungsprozesses aufgerufen werden. Der Systemzustand und die Ergebnisse können alternativ während des Erkennungsprozesses einmalig geprüft oder bei einer feststehenden Rate abgetastet werden, ohne dass sie im Speicher gespeichert werden. In jedem Fall liefern die tatsächlichen Zustände und Ereignisse die Daten für die Kontextanalyse, und deshalb muss das Spracherkennungssystem der vorliegenden Erfindung keine großen Dateien der Kontextdaten speichern.
  • Der Spracherkennungsrechner 32 greift im Einzelnen auf Daten zu, die die Systemaktivität, aktive Anwendungen, frühere Befehle und eine Ereigniswarteschlange betreffen. Diese Datenstrukturen enthalten insbesondere Aktivitäten, wie z.B.: Benutzereingaben über Sprache oder mit Maus, Stift oder Tastatur; Betätigung von Rollmenüs oder Schaltflächen; Aktivierung von Anwendungen oder Anwendungsteilen in einer Anwendung; frühere Befehle; und leere Ereignisse, d.h., wenn während einer vorgeschriebenen Zeitperiode in einer Ereigniswarteschlange keine Aktivität registriert wird. Diese Systemzustände und Systemereignisse und insbesondere frühere Befehle können von dem Sprecher oder dem System verfolgt und verwendet werden, um neue oder abgekürzte Sprachbefehle auf der Grundlage der Häufigkeit, mit der bestimmte Befehlskombinationen verwendet werden, zu erzeugen. Diese Daten können außerdem auf der Grundlage des Ablaufs verwendet werden, um das statistische Modell so zu aktualisieren, dass es an ein Befehlsauswahlmuster eines bestimmten Anwenders angepasst werden kann.
  • In 4 wird ferner im Schritt 56 das Audiosignal akustisch modelliert, und die Kontextdaten werden statistisch analysiert, um jeweilige mögliche akustische und Kontext-Übereinstimmungen zu identifizieren, wie oben beschrieben wurde. Auf der Grundlage dieser Übereinstimmungen wird im Schritt 58 ein Befehl "erkannt", der dem gesprochenen Befehl entspricht. Im Schritt 60 tritt der Spracherkennungsrechner mit dem Betriebssystem 28 oder einer Anwendung wie z.B. mit dem Sprachnavigator 34 in Verbindung, um den erkannten Befehl auszuführen. Das System prüft im Schritt 62, ob ein weiteres Befehlssignal vorliegt. Wenn ein weiterer Befehl vorhanden ist, empfängt der Spracherkennungsrechner 32 das Signal, und der obige Prozess wird wiederholt, andernfalls wird die Routine angehalten.
  • Zur Erläuterung kann die vorliegende Erfindung unter Verwendung des beispielhaften endlichen Netzwerks aus Zuständen und Ergebnissen, das in 5 dargestellt ist, ausgeführt werden. In diesem Fall beginnt das Netzwerk im Zustand 64, wobei in dem Computersystem eine Textverarbeitungsanwendung aktiv ist. Da in diesem Zustand keine Textdatei geladen ist, enthält eine Ereignismenge die Befehle: "new" ("neu") und "open" ("Öffnen"). Durch das Ausführen von einem dieser Ereignisse wird bewirkt, dass sich das System im Zustand 66 "Datei geladen" befindet, in welchem die Ereignisse "close" ("Schließen") oder "exit" ("Beenden") ausgeführt werden können, um das System in einen Zustand 68 "keine Datei geladen" zu versetzen.
  • In 6, die einen beispielhaften Erkennungsprozess unter Verwendung der kontextabhängigen Systemzustände und Systemereignisse von 5 erläutert, äußert ein Sprecher einen Dateibefehl "new", der über das Mikrofon 22 empfangen wird. Im Block 72 wird ein akustisches Modell gewonnen, das in diesem Fall eine endliche Menge von Wörtern ist. Im Block 74 wird der gesprochene Befehl akustisch modelliert, und jedem Befehl in der Menge akustischer Modelle werden Erkennungswerte oder Gewichtungen zugewiesen. Das am stärksten gewichtete Wort, hier das mit 50% gewichtete Wort "new", wird als die wahrscheinlichste akustische Übereinstimmung identifiziert. Außerdem wird das Betriebssystem 28 des Computers im Schritt 76 nach gegenwärtigen oder früheren Systemzuständen oder Ereignissen überwacht. Wie im Block 78 gezeigt ist, enthalten diese Zustände lediglich den Zustand "Textverarbeitung aktiv". Im Block 80 wird der gesprochene Befehl statistisch analysiert, in diesem Fall gemäß einer endlichen Menge aus Befehlen, die gemäß der statistischen Wahrscheinlichkeit ihrer entsprechenden Ereignisse, die in einem vorgegebenen Zustand auftreten, gewichtet sind. Der mit 60% am stärksten gewichtete Befehl "new" wird als die wahrscheinlichste Kontextübereinstimmung identifiziert. An diesem Punkt bringen die beiden Modelle den gesprochenen Befehl mit dem Befehl "new" in Übereinstimmung, den die Spracherkennung als den gesprochenen Befehl auswählt.
  • Ebenfalls in 6 wird dann der Dateibefehl "new" ausgeführt, und das System geht in den Zustand 66 "Datei geladen". Der Sprecher äußert nun einen Dateibefehl "close" ("schließen"), der im Block 82 über das Mikrofon empfangen wird. Da herkömmliche Spracherkennungssysteme sowohl ein Sprachdiktat als auch Befehls- und Steuerfunktionen ausführen, wird angemerkt, dass die akustischen Modelle andere Ausdrücke als Befehle enthalten, wie etwa in diesem Beispiel "clothes" ("Kleidungsstücke"). Im Block 84 wird ein anderes akustisches Modell aufgerufen, das ebenfalls eine endliche Menge von Befehlen ist. Im Block 84 wird der gesprochene Befehl akustisch modelliert, und jedem Befehl in der Menge des akustischen Modells werden Erkennungswerte oder Gewichtungen zugewiesen, um eine mögliche akustische Übereinstimmung zu identifizieren. Das Betriebssystem 28 des Computers wird im Block 88 wiederum nach gegenwärtigen und früheren Systemzuständen und Ereignissen überwacht, die nun die Zustände "Textverarbeitung aktiv" und "Datei geladen" sowie das Dateiereignis "new" enthalten, wie im Block 90 gezeigt ist. Im Block 92 wird der gesprochene Befehl wiederum gemäß einer endlichen Menge von gewichteten Befehlen analysiert, und es wird eine mögliche Kontextübereinstimmung identifiziert. Gemäß der akustischen Modellierung besitzen nun die beiden Wörter "close" und "clothes" die gleiche Wahrscheinlichkeit, der gesprochene Befehl zu sein. Gemäß der Analyse der Zustände und Ereignisse lautet der übereinstimmende Befehl jedoch "close". Somit erkennt das System den Dateibefehl "close" und führt diesen aus.
  • Wenn die akustische Modellierung und die Kontextanalyse unterschiedliche Ausdrücke als mögliche Übereinstimmungen liefern, können die akustische Übereinstimmung und die Kontextübereinstimmung jeweils gewichtet werden, um festzulegen, welche Übereinstimmung überwiegt.
  • Obwohl die vorhergehende Spezifikation die bevorzugten Ausführungsformen der Erfindung erläutert und beschreibt, sollte klar sein, dass die Erfindung nicht auf die darin offenbarte genaue Konstruktion beschränkt ist. Demzufolge sollte an Stelle der vorhergehenden Spezifikation auf die folgenden Ansprüche, die den Umfang der Erfindung angeben, Bezug genommen werden.

Claims (11)

  1. Verfahren zur Verwendung in einem Computersystem zur Spracherkennung, das in verschiedenen Zuständen betrieben wird und bei dem ein Programm abläuft, um verschiedene Ereignisse zum Erkennen eines gesprochenen Befehls auszuführen, wobei das Verfahren die folgenden Schritte umfasst: Überwachen (54) von mindestens einem der Ereignisse und Zustände; Empfangen eines verarbeiteten Befehls, der dem gesprochenen Befehl entspricht; Analysieren (44) des verarbeiteten Befehls gemäß wenigstens einem akustischen Modell, um eine wahrscheinliche akustische Übereinstimmung zu identifizieren; Analysieren (48) des verarbeiteten Befehls, um unter Verwendung eines statistischen Modells eine wahrscheinliche Kontextübereinstimmung zu identifizieren, um zumindest eines der Ereignisse/einen der Zustände zu analysieren; und gemäß einer endlichen Menge aus Befehlen, die gemäß der statistischen Wahrscheinlichkeit ihrer entsprechenden Ereignisse, die in dem vorgegebenen Zustand auftreten, gewichtet sind, Bereitstellen eines erkannten Befehls auf der Grundlage der wahrscheinlichen akustischen und Kontext-Übereinstimmungen.
  2. Verfahren nach Anspruch 1, bei dem die Ereignisse mindestens eine Systemsteuerungsaktivität, eine aktive Anwendung, einen früheren Befehl oder eine Ereigniswarteschlange enthalten.
  3. Verfahren nach Anspruch 2, bei dem frühere Ereignisse und Zustände verwendet werden, um das statistische Modell zu modifizieren.
  4. Verfahren nach Anspruch 1, das ferner die folgenden Schritte umfasst: Vorhersagen eines nächsten Ereignisses unter Verwendung des statistischen Modells; und Abschätzen des gesprochenen Befehls gemäß dem nächsten Ereignis.
  5. Verfahren nach Anspruch 4, bei dem die Systemereignisse mindestens eine Systemsteuerungsaktivität, eine aktive Anwendung, einen früheren Befehl oder eine Ereigniswarteschlange enthalten.
  6. Verfahren nach Anspruch 5, bei dem frühere Systemereignisse verwendet werden, um das statistische Modell zu modifizieren.
  7. Verfahren nach Anspruch 5, das ferner den Schritt des Empfangens eines verarbeiteten Befehls, der dem gesprochenen Befehl entspricht, umfasst, wobei der Schritt des Vorhersagens ferner das Analysieren des verarbeiteten Befehls gemäß einem oder mehreren akustischen Modellen umfasst und der Schritt des Abschätzens ferner das Identifizieren eines wahrscheinlichen Befehls gemäß dem einen oder den mehreren akustischen Modellen umfasst.
  8. System zum Erkennen eines gesprochenen Befehls, das umfasst: Mittel zum Überwachen von mindestens einem der Systemereignisse und Zustände; Mittel zum Empfangen eines verarbeiteten Befehls, der dem gesprochenen Befehl entspricht; Mittel zum Analysieren des verarbeiteten Befehls gemäß wenigstens einem akustischen Modell, um eine wahrscheinliche akustische Übereinstimmung zu identifizieren, und Verwenden eines statistischen Modells, um mindestens eines der Ereignisse/der Zustände zu analysieren, um gemäß einer endlichen Menge aus Befehlen, die gemäß der statistischen Wahrscheinlichkeit ihrer entsprechenden Ereignisse, die in dem vorgegebenen Zustand auftreten, gewichtet sind, eine mögliche Kontextübereinstimmung zu identifizieren; und Mittel zum Bereitstellen eines erkannten Befehls auf der Grundlage der wahrscheinlichen akustischen und Kontext-Übereinstimmungen.
  9. System nach Anspruch 8, bei dem die Ereignisse mindestens eine Systemsteuerungsaktivität, eine aktive Anwendung, einen früheren Befehl oder eine Ereigniswarteschlange enthalten.
  10. System nach Anspruch 9, bei dem frühere Ereignisse und Zustände verwendet werden, um das statistische Modell zu modifizieren.
  11. Maschinenlesbare Speichereinheit mit darin gespeichertem Computerprogramm, das eine Vielzahl von Codeabschnitten aufweist, die durch einen Rechner ausgeführt werden können, um zu bewirken, dass der Rechner das Verfahren gemäß einem der Ansprüche 1 bis 7 ausführt.
DE60023398T 1999-05-29 2000-05-24 Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen Expired - Lifetime DE60023398T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/321,918 US6345254B1 (en) 1999-05-29 1999-05-29 Method and apparatus for improving speech command recognition accuracy using event-based constraints
US321918 1999-05-29

Publications (2)

Publication Number Publication Date
DE60023398D1 DE60023398D1 (de) 2005-12-01
DE60023398T2 true DE60023398T2 (de) 2006-07-06

Family

ID=23252615

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60023398T Expired - Lifetime DE60023398T2 (de) 1999-05-29 2000-05-24 Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen

Country Status (6)

Country Link
US (1) US6345254B1 (de)
EP (1) EP1063635B1 (de)
AT (1) ATE308097T1 (de)
CA (1) CA2303718A1 (de)
DE (1) DE60023398T2 (de)
ES (1) ES2248018T3 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239197B2 (en) 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
CA2480509C (en) 2002-03-28 2011-06-07 Martin Dunsmuir Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
US20030195751A1 (en) * 2002-04-10 2003-10-16 Mitsubishi Electric Research Laboratories, Inc. Distributed automatic speech recognition with persistent user parameters
JP3724461B2 (ja) * 2002-07-25 2005-12-07 株式会社デンソー 音声制御装置
AU2003278431A1 (en) * 2002-11-22 2004-06-18 Koninklijke Philips Electronics N.V. Speech recognition device and method
US7392183B2 (en) * 2002-12-27 2008-06-24 Intel Corporation Schedule event context for speech recognition
US7555533B2 (en) * 2003-10-15 2009-06-30 Harman Becker Automotive Systems Gmbh System for communicating information from a server via a mobile communication device
DE602004010054T2 (de) * 2004-01-19 2008-03-06 Harman Becker Automotive Systems Gmbh Betätigung eines Sprachdialogsystems
DE602004017955D1 (de) * 2004-01-29 2009-01-08 Daimler Ag Verfahren und System zur Sprachdialogschnittstelle
ATE400871T1 (de) * 2004-01-29 2008-07-15 Harman Becker Automotive Sys Multimodale dateneingabe
EP1562180B1 (de) * 2004-02-06 2015-04-01 Nuance Communications, Inc. Sprachdialogsystem und Verfahren zum Steuern eines elektronischen Gerätes
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US9570086B1 (en) 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
US9530409B2 (en) 2013-01-23 2016-12-27 Blackberry Limited Event-triggered hands-free multitasking for media playback
US10311865B2 (en) 2013-10-14 2019-06-04 The Penn State Research Foundation System and method for automated speech recognition
US10310923B1 (en) 2014-08-28 2019-06-04 Seagate Technology Llc Probabilistic aging command sorting
US10831403B2 (en) 2017-05-19 2020-11-10 Seagate Technology Llc Probabalistic command aging and selection

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US5867817A (en) * 1996-08-19 1999-02-02 Virtual Vision, Inc. Speech recognition manager

Also Published As

Publication number Publication date
DE60023398D1 (de) 2005-12-01
ES2248018T3 (es) 2006-03-16
US6345254B1 (en) 2002-02-05
ATE308097T1 (de) 2005-11-15
CA2303718A1 (en) 2000-11-29
EP1063635B1 (de) 2005-10-26
EP1063635A2 (de) 2000-12-27
EP1063635A3 (de) 2003-02-05

Similar Documents

Publication Publication Date Title
DE60023398T2 (de) Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE60201262T2 (de) Hierarchische sprachmodelle
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE10040214A1 (de) Intelligente Korrektur diktierter Sprache
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP0836175A2 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
EP1097447A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
DE69333762T2 (de) Spracherkennungssystem
WO2014131763A2 (de) Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung
DE4010028C2 (de) Spracherkennungsverfahren
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE102006045719B4 (de) Medizinisches System mit einer Spracheingabevorrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN