DE102008007698A1 - Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem - Google Patents

Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem Download PDF

Info

Publication number
DE102008007698A1
DE102008007698A1 DE200810007698 DE102008007698A DE102008007698A1 DE 102008007698 A1 DE102008007698 A1 DE 102008007698A1 DE 200810007698 DE200810007698 DE 200810007698 DE 102008007698 A DE102008007698 A DE 102008007698A DE 102008007698 A1 DE102008007698 A1 DE 102008007698A1
Authority
DE
Germany
Prior art keywords
procedures
word
recognition system
sentence
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE200810007698
Other languages
English (en)
Inventor
Georg Dr. Stemmer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE200810007698 priority Critical patent/DE102008007698A1/de
Priority to PCT/EP2009/050598 priority patent/WO2009098118A1/de
Publication of DE102008007698A1 publication Critical patent/DE102008007698A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Es wird ein Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem beschrieben, welches Spracherkennungssystem Prozeduren enthaltende Erkennungsgrammatiken ausführt, die in Form von Wort- und/oder Satzhypothesen festlegen, welche Äußergssystem enthält einen Spracherkenner mit einem Interpreter oder Compiler, um Prozeduren, die in einer bestimmten Programmiersprache geschrieben sind, auswerten zu können. Während eines Erkennungsvorgangs werden die Prozeduren in Abhängigkeit davon, welche Worthypothesen gut bewertet sind, ausgeführt. Die Prozeduren können durch Ausgabe eines Rückgabewerts auch mit anderen Systemen zur Nutzung von Nebenbedingungen interagieren. Der Rückgabewert der Prozeduren oder der Wert einer festgelegten Variablen wird vom Spracherkennungssystem mit der jeweiligen Bewertung der Wort- und/oder Satzhypothese verknüpft, wodurch sich eine neue Bewertung der Wort- und/oder Satzhypothese ergibt, und der Spracherkenner am Ende die bestbewerteten Wort- und/oder Satzhypothesen ausgibt.

Description

  • Die Erfindung betrifft ein Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem mit einen Spracherkenner mit einem Interpreter oder Compiler.
  • Äußerungen, die von einem Spracherkennungssystem verarbeitet werden sollen, werden oft durch Nebenbedingungen beeinflusst, die einerseits sehr spezifisch von der Aufgabenstellung abhängen und andererseits sehr komplex sind. Ein Beispiel dafür sind gesprochene Eingaben von Kreditkartennummern, die je nach Typ der Karte diversen Eigenschaften genügen müssen, z. B. dass ihre Quersumme durch eine bestimmte Zahl (z. B. 127) teilbar ist. Das Gleiche gilt für viele andere Nummern, die z. B. eine Prüfziffer enthalten. Ein weiteres Beispiel ist die multimodale Eingabe, bei der bestimmte Äußerungen nur in engem zeitlichen Kontext mit der Eingabe anderer Modalitäten Sinn machen, etwa einem gesprochenen Löschbefehl zusammen mit einem Mausklick auf eine Datei. Ohne Mausklick tritt die Äußerung nicht oder nur sehr selten auf.
  • Der Erfindung liegt das Problem zugrunde, solche komplexen Nebenbedingungen in einem Spracherkennungssystem dazu zu nutzen, um die Erkennung so effizient und akkurat wie möglich zu machen.
  • Hierzu gibt es zwei Lösungsansätze. Ein erster ist, das Spracherkennungssystem so für die jeweilige Aufgabenstellung anzupassen, dass die Nebenbedingungen in den Erkennungsvorgang miteinbezogen werden. Der Nachteil dieses Ansatzes ist, dass für jedes Anwendungsgebiet die Implementierung des Spracherkennungssystems geändert werden muss, was meist nicht praktikabel ist. Beim zweiten Lösungsansatz gibt der Spracherkenner nicht nur eine beste Hypothese für die gesprochene Äußerung, sondern eine ganze Liste mit sehr vielen Alternati ven oder einen Worthypothesengraph zurück. Eine andere Einheit, wie etwa die Dialogmaschine, sucht dann in den Alternativen nach einer besten Hypothese, die die Nebenbedingung erfüllt. Bei diesem Verfahren kann die Nebenbedingung nicht in den Erkennungsvorgang einbezogen werden, was zu einer Erhöhung des Rechenaufwandes und/oder einer Verschlechterung der Erkennungsgenauigkeit führen kann. Außerdem kann, je nach Nebenbedingung, die Anzahl der Alternativen, die benötig werden, sehr groß sein, was zu einer Erhöhung des Rechenaufwands in der Dialogmaschine und des Datentransfers führt.
  • Der Erfindung liegt die Aufgabe zugrunde ein Verfahren zur Verbesserung einer Erkennung einer Eingabe in einem Spracherkennungssystem unter Nutzung komplexer Nebenbedingungen zu entwickeln.
  • Die Aufgabe wird durch die Merkmale des unabhängigen Anspruchs 1 gelöst.
  • Moderne Spracherkennungssysteme enthalten oft bereits einen Interpreter für standardisierte Scriptsprachen. Darüber hinaus erlauben moderne Spracherkennungssysteme die Auswertung von Prozeduren/Skripten, die von einem Anwendungsentwickler geschrieben wurden, in Abhängigkeit von der erkannten Worthypothese. Üblicherweise werden die Rückgabewerte vom Spracherkennungssystem zur semantischen Interpretation und Formatierung des Erkennungsergebnisses verwendet.
  • Der Spracherkenner enthält einen Interpreter oder Compiler, um Prozeduren, die in einer bestimmten Programmiersprache geschrieben sind, auswerten zu können. Für jedes Anwendungsgebiet schreibt ein Entwickler Erkennungsgrammatiken, die festlegen, welche Äußerungen gesprochen werden können. Diese Grammatiken enthalten vom Entwickler geschriebene Prozeduren. Während des Erkennungsvorgangs werden die Prozeduren in Abhängigkeit davon, welche Worthypothesen gut bewertet sind, ausgeführt. Die Prozeduren können auch mit anderen Systemen interagieren, etwa um den aktuellen Zustand anderer Eingabemodalitäten, wie etwa der Maus, zu bestimmen.
  • Hiervon ausgehend wird erfindungsgemäß ein Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem vorgeschlagen, welches Spracherkennungssystem Prozeduren enthaltende Erkennungsgrammatiken ausführt, die in Form von Wort- und/oder Satzhypothesen festlegen, welche Äußerungen gesprochen werden können. Das Spracherkennungssystem enthält einen Spracherkenner mit einem Interpreter oder Compiler, um Prozeduren, die in einer bestimmten Programmiersprache geschrieben sind, auswerten zu können. Während eines Erkennungsvorgangs werden die Prozeduren in Abhängigkeit davon, welche Worthypothesen gut bewertet sind, ausgeführt. Die Prozeduren können durch Ausgabe eines Rückgabewerts auch mit anderen Systemen zur Nutzung von Nebenbedingungen interagieren, etwa um den aktuellen Zustand anderer Eingabemodalitäten, wie etwa einer Maus, zu bestimmen. Der Rückgabewert der Prozeduren oder der Wert einer festgelegten Variablen wird vom Spracherkennungssystem mit der jeweiligen Bewertung der Wort- und/oder Satzhypothese verknüpft, wodurch sich eine neue Bewertung der Wort- und/oder Satzhypothese ergibt. Der Spracherkenner gibt am Ende die bestbewerteten Wort- und/oder Satzhypothesen aus.
  • Die Grundidee der Erfindung liegt in einer Nutzung des Rückgabewerts der Prozeduren für eine Bewertung von Worthypothesen, zur Steuerung des Spracherkenners oder zur Interaktion mit anderen Systemen, wie z. B. anderen Eingabemodalitäten.
  • Vorteile der Erfindung gegenüber dem Stand der Technik ergeben sich insbesondere durch eine Erhöhung der Erkennungsgenauigkeit und -performanz, da im Spracherkennungslauf ungültige Wortfolgen von vorneherein ausgeschlossen werden können. Weiterhin ist es für den Anwendungsentwickler auf sehr einfache Weise möglich auch sehr komplexe Nebenbedingungen und Aktionen in den Spracherkennungsprozess mit einzubeziehen.
  • Weiterhin ist denkbar, dass die Prozeduren über einen vordefinierten Satz von Kommandos das Verhalten des Spracherkenners steuern können, etwa indem sie z. B. einen zweiten Erkennungslauf für Teile der Äußerung mit einem erweiterten Vokabular oder einer anderen Sprache triggern.
  • Vorzugsweise führt der Spracherkenner über die Prozeduren auch selbstständig einen Dialog fort, indem er beispielsweise mit einem Sprachsynthesesystem interagiert, um noch einmal nachzufragen, wenn eine Äußerung nur schlecht verständlich war. Das kann die Gestaltung des Dialogs für den Anwendungsentwickler weiter vereinfachen.
  • Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die Erkennungsgrammatik eine Grammatik für Ziffernfolgen ist, die Prozeduren in einer Programmiersprache, beispielsweise Javascript, enthält.
  • Vorzugsweise wird dabei zur Bewertung der Wort- und/oder Satzhypothese der Erkennungsgrammatik der Wert einer festgelegten Variablen berechnet, die alle Ziffernfolgen schlecht bewertet, die nicht gültig sind.
  • Ein Ausführungsbeispiel bzw. ein Anwendungsbeispiel der Erfindung ist eine eingangs erwähnte Erkennung von Kreditkartennummern. Die Erkennungsgrammatik wäre in diesem Fall eine Grammatik für Ziffernfolgen, die Prozeduren in einer Programmiersprache, beispielsweise Javascript, enthält.
  • Eine festgelete Variable «score» wird berechnet, die alle Ziffernfolgen schlecht, beispielsweise mit 0.0, bewertet, die nicht gültig im Sinne einer Kreditkartennummer sind.

Claims (6)

  1. Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem, welches Spracherkennungssystem Prozeduren enthaltende Erkennungsgrammatiken ausführt, die in Form von Wort- und/oder Satzhypothesen festlegen, welche Äußerungen gesprochen werden können, wobei das Spracherkennungssystem einen Spracherkenner enthält, um Prozeduren, die in einer bestimmten Programmiersprache geschrieben sind, auswerten zu können, wobei während eines Erkennungsvorgangs die Prozeduren in Abhängigkeit davon, welche Worthypothesen gut bewertet sind, ausgeführt werden, und die Prozeduren durch Ausgabe eines Rückgabewerts auch mit anderen Systemen zur Nutzung von Nebenbedingungen interagieren können, dadurch gekennzeichnet, dass der Rückgabewert der Prozeduren oder der Wert einer festgelegten Variablen vom Spracherkennungssystem mit der jeweiligen Bewertung der Wort- und/oder Satzhypothese verknüpft wird, wodurch sich eine neue Bewertung der Wort- und/oder Satzhypothese ergibt, und der Spracherkenner am Ende die bestbewerteten Wort- und/oder Satzhypothesen ausgibt.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Prozeduren über einen vordefinierten Satz von Kommandos das Verhalten des Spracherkenners steuern können.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Prozeduren das Verhalten des Spracherkenners durch triggern eines zweiten Erkennungslauf für Teile der Äußerung mit einem erweiterten Vokabular oder einer anderen Sprache steuern.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Spracherkenner über die Prozeduren auch selbstständig einen Dialog fortführt, um noch einmal nachzufragen, wenn eine Äußerung nur schlecht verständlich war.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Erkennungsgrammatik eine Grammatik für Ziffernfolgen ist.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass zur Bewertung der Wort- und/oder Satzhypothese der Erkennungsgrammatik der Wert einer festgelegten Variablen («score») berechnet wird, die alle Ziffernfolgen schlecht bewertet, die nicht gültig sind.
DE200810007698 2008-02-06 2008-02-06 Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem Withdrawn DE102008007698A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE200810007698 DE102008007698A1 (de) 2008-02-06 2008-02-06 Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem
PCT/EP2009/050598 WO2009098118A1 (de) 2008-02-06 2009-01-20 Verfahren zur erkennung einer eingabe in einem spracherkennungssystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200810007698 DE102008007698A1 (de) 2008-02-06 2008-02-06 Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem

Publications (1)

Publication Number Publication Date
DE102008007698A1 true DE102008007698A1 (de) 2009-08-13

Family

ID=40491093

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200810007698 Withdrawn DE102008007698A1 (de) 2008-02-06 2008-02-06 Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem

Country Status (2)

Country Link
DE (1) DE102008007698A1 (de)
WO (1) WO2009098118A1 (de)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19615693C1 (de) * 1996-04-19 1997-12-11 Siemens Ag Vorrichtung und Verfahren zur Aktionsermittlung
DE19635754A1 (de) * 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
DE19933524A1 (de) * 1999-07-16 2001-01-18 Nokia Mobile Phones Ltd Verfahren zur Eingabe von Daten in ein System
DE10131157C1 (de) * 2001-06-29 2002-07-04 Project49 Ag Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme
DE102005018174A1 (de) * 2005-04-19 2006-11-02 Daimlerchrysler Ag Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE102006036338A1 (de) * 2006-08-03 2008-02-07 Siemens Ag Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19615693C1 (de) * 1996-04-19 1997-12-11 Siemens Ag Vorrichtung und Verfahren zur Aktionsermittlung
DE19635754A1 (de) * 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
DE19933524A1 (de) * 1999-07-16 2001-01-18 Nokia Mobile Phones Ltd Verfahren zur Eingabe von Daten in ein System
DE10131157C1 (de) * 2001-06-29 2002-07-04 Project49 Ag Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme
DE102005018174A1 (de) * 2005-04-19 2006-11-02 Daimlerchrysler Ag Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE102006036338A1 (de) * 2006-08-03 2008-02-07 Siemens Ag Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen

Also Published As

Publication number Publication date
WO2009098118A1 (de) 2009-08-13

Similar Documents

Publication Publication Date Title
DE10306022B3 (de) Dreistufige Einzelworterkennung
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE10042944C2 (de) Graphem-Phonem-Konvertierung
EP1217610A1 (de) Verfahren und System zur multilingualen Spracherkennung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP1927980A2 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
DE60026366T2 (de) Spracherkennung mit einem komplementären sprachmodel für typischen fehlern im sprachdialog
EP0987682A2 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE69333762T2 (de) Spracherkennungssystem
EP0813734B1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
DE102005030967B4 (de) Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
WO2004070702A1 (de) Generieren und löschen von aussprachevarianten zur verringerung der wortfehlerrate in der spracherkennung
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE102008007698A1 (de) Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE10014337A1 (de) Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem
DE10229207B3 (de) Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
DE102018101567A1 (de) Fahrzeuginformationsterminal und computerlesbares Speichermedium, das ein Informationssuchprogramm speichert

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee