DE102004029873B3 - Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme - Google Patents

Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme Download PDF

Info

Publication number
DE102004029873B3
DE102004029873B3 DE200410029873 DE102004029873A DE102004029873B3 DE 102004029873 B3 DE102004029873 B3 DE 102004029873B3 DE 200410029873 DE200410029873 DE 200410029873 DE 102004029873 A DE102004029873 A DE 102004029873A DE 102004029873 B3 DE102004029873 B3 DE 102004029873B3
Authority
DE
Germany
Prior art keywords
recognition
user
hypothesis
confirmation dialog
recognizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE200410029873
Other languages
English (en)
Inventor
Volkmar Dr. Naumburger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE200410029873 priority Critical patent/DE102004029873B3/de
Application granted granted Critical
Publication of DE102004029873B3 publication Critical patent/DE102004029873B3/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Bei Sprachsystemen, bei denen der Nutzer verneint, bei gleichzeitiger Nennung des korrigierenden Kommandos, ist ein besonderes Vorgehen notwendig.

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur intelligenten Eingabekorrektur für Sprachdialogsysteme.
  • Gebiet der Erfindung:
  • Derartige Vorrichtungen dienen vorwiegend zur Analyse von Spracheingaben und zur Steuerung von Systemen durch die Sprache. Technische Spracherkennungseinrichtungen arbeiten aus verschiedenen Gründen nicht absolut fehlerfrei. Somit kann es notwendig sein, in einem nachfolgenden Dialogschritt das gewonnene Erkennungsergebnis durch den Nutzer verifizieren zu lassen. Eine besondere Rolle spielt hierbei der so genannte Confidence-Wert des Erkennungsergebnisses. Liegt dieser Wert hoch, kann u. U. ganz auf eine Verifizierung verzichtet werden, was die Dialoggeschwindigkeit erhöht. Liegt dieser Wert hingegen niedrig, muss davon ausgegangen werden, dass das Erkennungsergebnis auch falsch sein kann. Dann wird in einer Bestätigungsfrage an den Nutzer das Erkennungsergebnis akustisch wiederholt und der Nutzer durch eine Ja/Nein-Entscheidung gezwungen, das Erkennungsergebnis zu bestätigen oder zu verwerfen.
  • Besonders kritisch sind solche Erkennungssituationen, in denen Sprachkommandos großer Ähnlichkeit, für die auch keine Umschreibungen (sog. Alias) existieren, erkannt werden müssen. Städtenamen wie Dillingen und Illingen sind hierfür ein treffendes Beispiel. Zur Lösung dieses Konfliktes wird beim Stand der Technik das N-Best-Verfahren eingesetzt: Spracherkenner geben meist nicht nur ein Erkennungsergebnis (1. Hypothese) sondern nach der Erkennungswahrscheinlichkeit sortiert weitere Erkennungsergebnisse aus. Die Tiefe des Angebotes ist dabei über einen Parameter frei wählbar. Wird nun in einer Erkennungssession der nicht zutreffende Ortsname erkannt, kann der Reihe nach jede Erkennerhypothese dem Nutzer vorgelegt und durch eine Ja/Nein-Frage entschieden werden. Ohne N-Best besteht die Gefahr, dass der Nutzer auch bei einer erneuten Eingabe immer wieder auf das falsche Erkennungsergebnis stößt. In der Regel wird insbesondere bei ähnlich lautenden Namen schon die zweite Hypothese zutreffend sein, sodass mit einem hohen Gesamterfolg gerechnet werden kann.
  • Nachteilig bei der Anwendung des N-Best-Verfahrens ist, dass das Dialogverhalten menschlicher Nutzer anders ist als für das Verfahren notwendig. Im Regelfall beschränkt sich der Nutzer nicht einfach auf eine Ja/Nein-Antwort, wenn z.B. der falsche Ortsname vom Spracherkenner zur Bestätigung vorgelegt wird, sondern er verbindet die Verneinung automatisch mit der Nennung des richtigen Ortsnamens: „Sie haben Dillingen gesagt?" – „Nein, Illingen". Aus der Sicht des Spracherkenners liegt hier eine Neueingabe des Ortsnamens vor, die wiederum die erste Hypothese zur Bestätigung liefert. Damit kann eine frustrierende Endlosschleife, wie bereits oben beschrieben, gestartet werden. Das im technischen Sinne richtige Verhalten wäre, dass der Nutzer nur „Nein" antwortet, dann wird das nach dem Ausschließungsprinzip arbeitende N-Best-Verfahren aktiv, weil die N-Best-Liste nicht durch neue Erkennungsergebnisse überschrieben wird.
  • Eine andere Quelle für Fehlerkennungen, die korrekturbedürftig sind, ist der Nutzer selbst, nämlich dann, wenn er versehentlich ein falsches Kommando eingegeben hat und dieses berichtigen möchte. Im Beispiel der Ortsnamen könnte der Dialog unter Benutzung des N-Best-Verfahrens wie folgt ablaufen: „Sie haben Dillingen gesagt?" – „Nein", „Haben Sie Illingen gesagt?" – „Nein" usw.. Richtig wäre die Antwort in diesem Fall gewesen: „Nein, Bexbach". Denn mit der Nein-Antwort wird das N-Best-Verfahren aktiviert und es werden alle Hypothesen abgearbeitet. Hier hätte mit der ergänzenden Eingabe des wirklich gewollten Ortsnamens der Erkennungsvorgang neu gestartet werden müssen, damit sich die Erkenner-Hypothesen am Wollen des Nutzers orientieren können.
  • Noch komplizierter gestaltet sich der Korrekturprozess, wenn mehrere zu erkennende Einheiten (sog. Slots) je Nutzeräußerung erkannt bzw. korrigiert werden müssen. Dann verwirft ein ohne Zusatz ausgesprochenes „Nein" die gesamte Satzhypothese, weil nicht erkennbar ist, welcher Slot zu korrigieren ist. So wird die 3-Slot-Erkennerhypothese "Sie möchten die Rufnummer des Bürgeramtes von Dillingen wissen?" erst durch die eindeutige Antwort „Nein, die Fax-Nummer" korrigierbar. Das N-Best-Verfahren ist klassisch gar nicht anwendbar, weil im ersten Fall nicht klar ist, für welchen Slot die Hypothese zu korrigieren ist und im zweiten Fall, weil die alternativen Slot-Hypothesen durch den korrigierenden Nachsatz überschrieben werden.
  • Es zeigt sich also, dass die Anwendung des N-Best-Verfahrens auf das Nutzerverhalten Einfluss nehmen muss, um richtig wirken zu können. Dies ist aber insbesondere bei Anwendungen mit einer hohen Nutzerfrequenz eine nicht durchsetzbare Anforderung. Weiterhin versagt das N-Best-Verfahren bei komplexen Satzstrukturen.
  • Aus der US 5,241,619 ist ein Verfahren bekannt, bei dem das N-Best-Verfahren dazu benutzt wird, um einer Sequenz von Worten, die durch eine Grammatik beschrieben werden, die wahrscheinlichste Kette von Worten zu einer Satzhypothese zuzuordnen. Dazu wird die Verbindungswahrscheinlichkeit der Worte untereinander (und zwar immer zum vorhergehenden Wort) genutzt. Das Ergebnis des Verfahrens ist eine Liste von Satzhypothesen, die nach einem N-Best-Verfahren abgearbeitet werden kann. Das vorliegende Patent bezieht das Nutzerverhalten nicht ein.
  • Aus der US 6,272,462 ist eine Lösung bekannt, die der iterativen Verbesserung des Sprachmodells eines Spracherkenners dient, indem die erkannten Word- oder Satzalternativen durch einen Experimentator als falsch oder richtig eingestuft werden. Auf diese Weise werden Gewichte generiert, die zukünftige Erkennungsprozeduren bewerten, um so zu besseren Erkennungsresultaten zu kommen.
  • Die Druckschrift US 2002/0055841 betrifft eine Lösung zur Entscheidungsfindung, ob ein Erkennungsergebnis akzeptiert, zurückgewiesen oder durch ein N-Best-Verfahren verifiziert werden muss. In der Schrift werden allgemein Bedingungen zur Klassifizierung genannt, aber nicht ausgeführt. Die Lösung bezieht sich ausschließlich auf den primären Erkennungsprozess und nimmt nicht Bezug auf einen Nutzerdialog.
  • Die DE 100 08 502 A1 stellt ein Verfahren zur semantischen Analyse vor. Eine Anapher ist in der Sprachwissenschaft die Wiederholung wichtiger Worte an Vers-/Satzanfängen. Das Verfahren bezieht sich auf die semantische Analyse von Sätzen, auch gesprochenen Sätzen. Ziel ist es, die grammatikalisch eindeutige Erkennung von Satzteilen oder Satzelementen zum Zwecke der semantischen Erkennung der Bedeutung sprachlicher Äußerungen. Das Verfahren ist nicht an die Verwendung der N-Best-Strategien gebunden.
  • Das Verfahren aus der US 5,712,957 ist eher für ein Diktiersystem geeignet, denn es verlangt eine Kennzeichnung des von einem Spracherkenner falsch erkannten Wortes oder Satzteils. Mit dieser Kennzeichnung ist es möglich, zusätzlich zu der N-Best-Liste für die Satzhypothesen eine zweite N-Best-Liste für das falsch erkannte Wort zu generieren, indem dieses Wort noch einmal gesprochen werden muss. Aus der Kombination beider N-Best-Listen ergibt sich dann die korrekte Satzhypothese.
  • Das Verfahren DE 69229124 T2 beschreibt eine Verbesserung des Trainings von Spracherkennern für komplexe Eingaben auf der Basis von Einzelworterkennern. Dieses Verfahren kann aus heutiger Sicht als veraltet bezeichnet werden. Moderne Erkenner benutzen Phoneme als kleinste zu erkennende Einheit. Im angegebenen Verfahren wird die Verbundwahrscheinlichkeit der Worte untereinander (HMM) genutzt. Das vorliegende Verfahren betrifft nur die elementare Spracherkennung und zwar das Training für die spätere konkrete Anwendung.
  • Das in der US 5,799,465 beschriebene Verfahren benutzt das klassische N-Best-Verfahren in einer Anrufervermittlung (call routing). Routing-Kriterium ist der Name der Zielperson. Es handelt sich hierbei um die einfachste Form einer N-Best-Anwendung.
  • Das Ziel der Erfindung aus der US 6,233,553 B1 besteht in der Erweiterung eines Lexikons im laufenden Betrieb eines Spracherkenners. Unbekannte Worte müssen durch den Nutzer buchstabiert werden. Die einzelnen Buchstaben werden nach ihrer Erkennungssicherheit sortiert (N-Best), zu einem Wort kombiniert und als neue lexikalische Einheit abgespeichert.
  • Das Verfahren aus der US 6,374,220 B1 befasst sich mit der Befüllung eines Resultatspeichers eines Spracherkenners, geeignet für eine spätere N-Best-Auswertung. Die Erfindung betrifft die elementare Spracherkennung.
  • In der US 2002/0052742 A1 wird ebenfalls auf eine N-Best-Liste zurückgegriffen, allerdings erfolgt die Kennzeichnung inkorrekter Teile der Erkennungssequenz per Maus durch den User (z. B. bei Diktiersystemen). Die Korrektur des so als fehlerhaft gekennzeichneten Abschnittes erfolgt durch die nächst wahrscheinliche Hypothese, die nach dem N-Best-Verfahren gefunden wird. Es wird aber nicht die sprachliche Korrekturmöglichkeit erwähnt. Der Fall, dass die Unterscheidung zwischen Maschinenfehler und Nutzerirrtum erforderlich ist, wird nicht behandelt. Eine Historie von Erkennungsresultaten wird ebenfalls nicht berücksichtigt, was bei einer Mauseingabe auch nicht erforderlich ist.
  • Die Schrift DE 60000134 T2 bezieht sich auf eine Lösung zur Verbesserung der Spracherkennerleistung durch Adaption an einen unbekannten Sprecher. Dazu wird das N-Best-Verfahren benutzt, um die ursprünglichen Sprachmodelle des Spracherkenners zu optimieren.
  • Die Druckschrift EP 01070135 A1 betrifft eine Einrichtung zur Ziffernerkennung. Die Hypothesen werden in einer N-Best-Liste zur Verfügung gestellt. Mit Hilfe eines Checksummen-Algorithmus wird die richtige Hypothese ausgesucht.
  • Aufgabe der Erfindung ist es, ein Verfahren und eine Einrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme unter Vermeidung der Nachteile des Standes der Technik bereitzustellen.
  • Diese Aufgabe wird durch die Erfindungen mit den Merkmalen der unabhängigen Ansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindungen sind in den Unteransprüchen gekennzeichnet.
  • Nach dem Stand der Technik erfolgt die Modellierung der zu erkennenden Sprachkommandos, insbesondere für Systeme mit natürlichem Sprachverstehen (natural language understanding – NLU), in sog. Grammatiken (Grammar). Diese bestehen neben den bedeutungstragenden Slots auch aus Fillern (z. B. ich hätte gern ...), die in der menschlichen Kommunikation unerlässlich sind, aber an sich keine Informationen beinhalten. Nach Abschluss eines jeden Erkennungsschrittes liefert der Spracherkenner Slot bezogene Erkennungsergebnisse geordnet nach den zugehörigen Erkennungswahrscheinlichkeiten. Dies wird für jede einzelne Hypothese ausgeführt.
  • Ein erfindungsgemäßer Gedanke beruht auf der Zwischenspeicherung aller Slot-Hypothesen in der bevorzugten Ausführungsform in einem virtuellen Speicherwürfel. Die Dimensionen des Würfels werden bestimmt durch:
    • • Historie t (wie viele Korrekturschritte werden in die Vergangenheit zurückverfolgt)
    • • Slot-Anzahl n und
    • • Anzahl der maximal möglichen Hypothesen je Slot m.
    wobei in Anspruch 1 lediglich das Verfahren mit einem Slot (Einzelworterkennung) berücksichtigt wurde.
  • Weiterhin benutzt die erfindungsgemäße Lösung einen Vergleicher, der Slot bezogen die Hypothesen auf gleiche Einträge unabhängig von ihrer Position zwischen verschiedenen Zeitpunkten (d. h. Erkennungsschritten) prüft und als ähnlich (true) oder unähnlich (false) kennzeichnet.
  • Der hier betrachtete Dialogschritt beginnt mit einer situationsgerechten Nutzeräußerung. Das Spracherkennungsergebnis wird einerseits für die Konfirmation an den Dialog (Sprachausgabe) geleitet, andererseits aber im Zwischenspeicher unter t = 1 zu späterer Verwendung abgelegt. In der Konfirmationsphase werden alle im aktuellen Dialogschritt gefundenen ersten Hypothesen (m = 1) dem Nutzer zur Bestätigung angeboten. Folgend sind drei Situationen denkbar:
    • 1. der Nutzer bestätigt die Satzhypothese mit „Ja" (oder die Erkennungswahrscheinlichkeiten sind so hoch, dass eine Rückfrage entfallen kann.). Dann ist der aktuelle Dialogschritt erfolgreich beendet worden.
    • 2. der Nutzer verneint die gesamte Satzhypothese. Dann muss in weiteren Dialogschritten das Füllen der offenen Slots vorgenommen werden. Diese Situation wird von der erfindungsgemäßen Lösung nicht betroffen.
    • 3. der Nutzer verneint bei gleichzeitiger Nennung des korrigierenden Kommandos. Das ist die Situation, die vorzugsweise erfindungsgemäß gelöst werden soll.
  • Erfindungsgemäß wird in Situation 3 ein neuer Erkennungsprozess bezüglich des korrigierten Kommandos gestartet. Slot bezogen wird bzw. werden nun die neue(n) Hypothese(n) in den Zwischenspeicher unter t = 2 abgelegt. Jetzt erfolgen Vergleiche der 2. und folgenden Hypothesen aus dem ersten Erkennungsschritt (t = 1) mit allen Hypothesen des zweiten Erkennungsschrittes (t = 2). Die erste Hypothese aus dem ersten Erkennungsschritt nimmt am Vergleich nicht mehr teil, weil sie bereits durch die Nutzerentscheidung ausgeschieden ist. In Abhängigkeit vom Ausgang des Vergleichs sind zwei weitere Pfade möglich:
    • 1. Der Vergleich war nicht erfolgreich. D. h., es liegt keinerlei Ähnlichkeit zwischen der ersten und der zweiten Nutzereingabe vor. Es ist zu vermuten, dass sich der Nutzer selbst korrigiert hat. Es wird die erste Hypothese des zweiten Erkennungsschrittes als Erkennungsergebnis ausgegeben.
    • 2. Der Vergleich war erfolgreich. Es ist zu vermuten, dass der Nutzer ähnlich klingende Kommandos korrigieren will (klassisches N-Best). Es wird die zweitwahrscheinliche Hypothese des ersten Erkennungsschrittes als Erkennungsergebnis ausgegeben.
  • Nun können in beiden Fällen immer noch falsche Resultate vorliegen, sodass die Prozedur wiederholt werden muss. Dann verneint der Nutzer wieder das angebotene Erkennungsergebnis und eine neue Hypothese wird aufgestellt. Diese wird dann unter t = 3 abgespeichert. Für den Vergleich wird nun auch die zweite Hypothese des ersten Erkennungsschrittes gestrichen:
    • 1. Im positiven Fall (Ähnlichkeit vorhanden) wird dem Nutzer die dritte Hypothese des ersten Erkennungsschrittes zur Beurteilung angeboten.
    • 2. Im Negativfall (keine Ähnlichkeit zu einer der Hypothesen des ersten Erkennungsschrittes vorhanden) wird nunmehr die erste Hypothese des zweiten Erkennungsschrittes gestrichen und mit den Hypothesen des dritten Erkennungsschrittes verglichen. Wird eine Ähnlichkeit festgestellt, so kann wieder im N-Best-Verfahren die zutreffende Alternative ermittelt werden. Tritt erneut eine Nichtähnlichkeit auf, ist davon auszugehen, dass der Nutzer erneut seinen Willen geändert hat.
  • Wie zu sehen ist, arbeitet dieses Verfahren rekursiv. Aus praktischen Erwägungen ist es jedoch sinnvoll, die Anzahl möglicher Schritte geeignet zu begrenzen.
  • Zu Beginn des Dialoges, nach Abschluss jeder erfolgreichen Erkennungsprozedur und nach Dialog-Resets werden alle Speicherinhalte zurückgesetzt (Löschen der Historie).
  • Im Folgenden wird die Erfindung anhand von Ausführungsbeispielen näher erläutert, die in den Figuren schematisch dargestellt sind. Gleiche Bezugsziffern in den einzelnen Figuren bezeichnen dabei gleiche Elemente. Im Einzelnen zeigt:
  • 1 ein mehrdimensionales Speicherabbild, bei dem die Hypothesen pro Slot und Historie abgespeichert sind,
  • 2 die Darstellung des Verfahrens bei einer Fehlerkorrektur mittels N-Best,
  • 3 die Darstellung des Verfahrens bei einer Fehlerkorrektur mittels N-Best, wobei sich der Benutzer selber korrigiert.
  • Im Rahmen der Erfindung sind zahlreiche Abwandlungen und Weiterbildungen der beschriebenen Ausführungsbeispiele verwirklichbar.
  • Ein erfindungsgemäßer Gedanke beruht gemäß 1 auf der Zwischenspeicherung aller Slot-Hypothesen in einem Speicherwürfel. Die Dimensionen des Würfels werden bestimmt durch:
    • • Historie t (wie viele Korrekturschritte werden in die Vergangenheit zurückverfolgt)
    • • Slot-Anzahl n und
    • • Anzahl der maximal möglichen Hypothesen je Slot m.
  • Weiterhin benutzt die erfindungsgemäße Lösung einen Vergleicher, der Slot bezogen die Hypothesen auf Gleichheit zwischen verschiedenen Zeitpunkten (d. h. Erkennungsschritten) prüft und als ähnlich (true) oder unähnlich (false) kennzeichnet (1).
  • Es versteht sich jedoch, dass die Erfindung auch nur mit einem Slot für die Einzelworterkennung genutzt werden kann.
  • 2 zeigt die Wirkung der erfindungsgemäßen Lösung im Falle einer hohen Verwechslungsähnlichkeit der Sprachkommandos (im Beispiel Slot 3, Ortsname). Der Nutzer verlangt den Ort Illingen, bekommt aber in der ersten Hypothese den Ort Dillingen angeboten. Dem gemäß verneint der Nutzer die entsprechende Rückfrage und verbindet dies mit der erneuten Eingabe seines Wunsch-Ortes. Aufgrund sprachlicher oder anderer Besonderheiten steht wieder der Ortsname Dillingen an erster Stelle der Hypothesen, da aber Dillingen bereits abgelehnt wurde und der Name Illingen in beiden Erkennungsschritten zu finden ist, wird nun entsprechend des N-Best-Verfahrens der nächst wahrscheinliche Name, nämlich korrekter Weise Illingen ausgegeben.
  • 3 zeigt die Wirkung der erfindungsgemäßen Lösung im Falle eines Wechsels der Nutzerabsicht. Der Nutzer verlangt den Ort Illingen, bekommt in der ersten Hypothese korrekt auch Illingen angeboten. Aber der Nutzer hat sich geirrt und verneint aus diesem Grund die entsprechende Rückfrage. Er verbindet dies mit der geänderten Eingabe seines Wunsch-Ortes, nämlich Bexbach. Ein Vergleich der Speicherinhalte geht erfolglos aus. Folglich werden alle Hypothesen des ersten Erkennungsschrittes verworfen und es wird der Ortsname Bexbach als Alternative ausgegeben.

Claims (10)

  1. Verfahren zur Erkennung einer Spracheingabe durch einen automatischen Spracherkenner, a) bei dem die Spracheingabe einem Erkennungsprozess unterworfen wird und die daraus gewonnene(n) Hypothese(n) in einem Zwischenspeicher unter sm abgelegt werden, wobei anfänglich m=1 und t=2 ist, um dann für einen Bestätigungsdialog mit einem Nutzer abgespielt zu werden, b) bei dem die Antwort des Benutzers auf den Bestätigungsdialog einem Erkennungsprozess unterworfen wird, um festzustellen ob der Nutzer verneint bei gleichzeitiger Nennung des korrigierenden Kommandos, falls das der Fall ist, wird mit Schritt c) fortgefahren, c) bei dem der Erkennungsprozess bezüglich des korrigierten Kommandos gestartet und die neue(n) Hypothese(n) in den Zwischenspeicher unter st abgelegt werden, d) bei dem alle Hypothesen aus dem m-ten Erkennungsschritt im Speicherbereich sm mit allen Hypothesen des t-ten Erkennungsschrittes im Speicherbereich st, bis auf die unter Schritt b) verneinten miteinander verglichen werden, e) bei dem bei negativem Vergleich unter d) die erste Hypothese des t-ten Erkennungsschrittes im Speicherbereich st als Erkennungsergebnis für den Bestätigungsdialog unter Schritt b) ausgegeben wird und t=t+1 und m=t gesetzt wird um mit Schritt b) fortzufahren, bei dem bei positiven Vergleich die zweitwahrscheinlichste Hypothese des m-ten Erkennungsschrittes im Speicherbereich sm für den Bestätigungsdialog unter Schritt b) ausgegeben wird und t=t+1 gesetzt wird um mit Schritt b) fortzufahren.
  2. Das Verfahren zur Erkennung einer Spracheingabe durch einen automatischen Spracherkenner nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass beim Vergleich der Ähnlichkeit unter Schritt d) das N-Best-Verfahren eingesetzt wird.
  3. Das Verfahren zur Erkennung einer Spracheingabe durch einen automatischen Spracherkenner, nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren jeweils auf Slots angewendet wird, und somit Slot-Hypothesen erzeugt werden.
  4. Das Verfahren zur Erkennung einer Spracheingabe durch einen automatischen Spracherkenner nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass wenn im Bestätigungsdialog im Schritt b) der Nutzer mit „Ja" bestätigt und/oder die Erkennungswahrscheinlichkeiten so hoch ist, dass ein Bestätigungsdialog entfallen kann, das erkannte Kommando ausgeführt wird, oder dass wenn im Bestätigungsdialog im Schritt b) der Nutzer mit „Nein" antwortet eine weitere weniger wahrscheinliche Hypothese bereitgestellt wird und/oder in einem weiteren Dialogschritt das Füllen der offenen Slots vorgenommen wird.
  5. Das Verfahren zur Erkennung einer Spracheingabe durch einen automatischen Spracherkenner nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindesten zwei Historien-Ebenen in Form von Zwischenspeicherebenen vorhanden sind.
  6. Das Verfahren zur Erkennung einer Spracheingabe durch einen automatischen Spracherkenner nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine mehrdimensionale Datenstruktur zur Speicherung der Ebenen verwendet wird.
  7. Das Verfahren zur Erkennung einer Spracheingabe durch einen automatischen Spracherkenner nach Anspruch 6, dadurch gekennzeichnet, dass eine 3D-Matrix zur Speicherung der Ebenen verwendet wird.
  8. Software für einen Computer, dadurch gekennzeichnet, dass ein Verfahren nach einem oder mehreren der vorhergehenden Ansprüche implementiert ist.
  9. Datenträger für einen Computer, gekennzeichnet durch die Speicherung einer Software nach dem vorhergehenden Softwareanspruch.
  10. Computersystem, gekennzeichnet durch eine Einrichtung, die den Ablauf eines Verfahrens nach einem oder mehreren der vorhergehenden Verfahrensansprüche erlaubt.
DE200410029873 2004-06-16 2004-06-16 Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme Expired - Lifetime DE102004029873B3 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE200410029873 DE102004029873B3 (de) 2004-06-16 2004-06-16 Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200410029873 DE102004029873B3 (de) 2004-06-16 2004-06-16 Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme

Publications (1)

Publication Number Publication Date
DE102004029873B3 true DE102004029873B3 (de) 2005-12-29

Family

ID=35455226

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200410029873 Expired - Lifetime DE102004029873B3 (de) 2004-06-16 2004-06-16 Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme

Country Status (1)

Country Link
DE (1) DE102004029873B3 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006058758A1 (de) * 2006-12-12 2008-06-19 Deutsche Telekom Ag Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung
WO2010000322A1 (en) * 2008-07-03 2010-01-07 Mobiter Dicta Oy Method and device for converting speech

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
DE69229124T2 (de) * 1991-12-20 1999-09-16 Kurzweil Applied Intelligence Mehrteiliger expertsystem
DE10008502A1 (de) * 1999-02-26 2000-09-07 Atr Interpreting Telecommunica Anapher-Analysevorrichtung mit Vorgängerkandidaten zurückweisungseinrichtung unter Verwendung eines Kandidatenzurückweisungsentscheidungsbaums
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6272462B1 (en) * 1999-02-25 2001-08-07 Panasonic Technologies, Inc. Supervised adaptation using corrective N-best decoding
US6374220B1 (en) * 1998-08-05 2002-04-16 Texas Instruments Incorporated N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states
US20020052742A1 (en) * 2000-07-20 2002-05-02 Chris Thrasher Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
US20020055841A1 (en) * 1999-02-08 2002-05-09 Ning Bi Voice recognition rejection scheme
DE60000134T2 (de) * 1999-01-25 2002-12-12 Matsushita Electric Ind Co Ltd Unüberwachte Anpassung eines Spracherkenners unter Verwendung zuverlässiger Informationen aus den besten N Rechenhypothesen
EP1302928A1 (de) * 2001-10-16 2003-04-16 Siemens Aktiengesellschaft Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner
EP1376999A1 (de) * 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Vorrichtung zur sprachgesteuerten Eingabe von alphanumerischen Zeichenketten mit Korrekturmodus
DE10251112A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren und System zur Spracherkennung

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
DE69229124T2 (de) * 1991-12-20 1999-09-16 Kurzweil Applied Intelligence Mehrteiliger expertsystem
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
US6374220B1 (en) * 1998-08-05 2002-04-16 Texas Instruments Incorporated N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
DE60000134T2 (de) * 1999-01-25 2002-12-12 Matsushita Electric Ind Co Ltd Unüberwachte Anpassung eines Spracherkenners unter Verwendung zuverlässiger Informationen aus den besten N Rechenhypothesen
US20020055841A1 (en) * 1999-02-08 2002-05-09 Ning Bi Voice recognition rejection scheme
US6272462B1 (en) * 1999-02-25 2001-08-07 Panasonic Technologies, Inc. Supervised adaptation using corrective N-best decoding
DE10008502A1 (de) * 1999-02-26 2000-09-07 Atr Interpreting Telecommunica Anapher-Analysevorrichtung mit Vorgängerkandidaten zurückweisungseinrichtung unter Verwendung eines Kandidatenzurückweisungsentscheidungsbaums
US20020052742A1 (en) * 2000-07-20 2002-05-02 Chris Thrasher Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
EP1302928A1 (de) * 2001-10-16 2003-04-16 Siemens Aktiengesellschaft Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner
EP1376999A1 (de) * 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Vorrichtung zur sprachgesteuerten Eingabe von alphanumerischen Zeichenketten mit Korrekturmodus
DE10251112A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren und System zur Spracherkennung

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006058758A1 (de) * 2006-12-12 2008-06-19 Deutsche Telekom Ag Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung
DE102006058758B4 (de) * 2006-12-12 2018-02-22 Deutsche Telekom Ag Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung
WO2010000322A1 (en) * 2008-07-03 2010-01-07 Mobiter Dicta Oy Method and device for converting speech

Similar Documents

Publication Publication Date Title
DE69829235T2 (de) Registrierung für die Spracherkennung
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
EP3224831B1 (de) Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
DE102005030963B4 (de) Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe
EP1264302A1 (de) Vorrichtung und verfahren zur spracheingabe eines zielortes mit hilfe eines definierten eingabedialogs in ein zielführungssystem
WO2006111230A1 (de) Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
DE60026366T2 (de) Spracherkennung mit einem komplementären sprachmodel für typischen fehlern im sprachdialog
DE10304460B3 (de) Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
DE102004029873B3 (de) Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE60025687T2 (de) Vorrichtung zum Spracherkennung mit Durchführung einer syntaktischen Permutationsregel
EP3115886A1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
8364 No opposition during term of opposition
R071 Expiry of right