DE102008062923A1

DE102008062923A1 - Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung

Info

Publication number: DE102008062923A1
Application number: DE102008062923A
Authority: DE
Inventors: Moritz Neugebauer; Stefan Schulz
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2008-12-23
Filing date: 2008-12-23
Publication date: 2010-06-24

Abstract

Ein Verfahren und eine Vorrichtung (1) zur Erzeugung einer Trefferliste (7) bei einer automatischen Spracherkennung (5) werden beschrrieben. Dabei umfasst die Trefferliste (7) mindestens eine Trefferlistsen-Wortgruppe, welche ausgehend von einer gesprochenen Wortgruppe von der Spracherkennung (5) als mögliche Treffer erzeugt werden. Dabei umfasst jede Wortgruppe mindestens ein Wort. Die Trefferliste (7) wird nun ausgehend von mindestens einer Ausgangs-Wortgruppe, welche von der Spracherkennung als Treffer bestimmt wird, mittels des Levenshtein-Verfahrens erzeugt. Dabei umfasst die Trefferliste (7) die mindestens eine Ausgangs-Wortgruppe.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung, um bei einer automatischen Spracherkennung eine Trefferliste zu erzeugen.
Die DE 10 2004 055 230 B3 beschreibt ein Verfahren zur Erkennung einer gesprochenen Eingabe. Dabei wird ein vorgebbares Vokabular in mehrere Abschnitte mit phonetisch ähnlichen Wörtern eingeteilt. In einem ersten Schritt wird die gesprochene Eingabe einem Abschnitt zugeteilt und im zweiten Schritt wird die gesprochene Eingabe aus einem Vokabular des zugeteilten Abschnitts ermittelt.
Die DE 103 08 611 A1 beschäftigt sich mit der Verwechslungsgefahr von Vokabulareinträgen. Dabei wird mittels des Levenshtein-Algorithmus der Abstand zwischen zwei Phonemfolgen bestimmt.
Die US 7,386,441 B2 beschreibt eine Verarbeitung natürlicher Sprache mit Operationen, welche auf gewichteten und nicht gewichteten Multi-Tape-Automaten arbeiten.
Die DE 102 44 722 A1 stellt sich die Aufgabe, zwei Folgen lautsprachlicher Einheiten miteinander zu vergleichen. Dabei wird das Levenshtein-Verfahren zur Bestimmung einer Distanz zweier Artikulations-Merkmalsvektoren eingesetzt.
Die US 6,393,395 B1 betrifft eine Wiedererkennung einer handgeschriebenen Schrift und einer Sprache.
Statistische Spracherkennungssysteme berechnen aus der von einem Nutzer gesprochenen Wortgruppe (z. B. einem Sprachbefehl) eine geordnete Trefferliste von möglichen erkannten Wortgruppen, welche im so genannten Wortschatz des Spracherkennungssystems definiert sind. Diese Trefferliste ist nach einem Konfidenzmaß geordnet, welches die laut Repräsentation der im Wortschatz enthaltenen Wortgruppen mit der tatsächlichen Nutzereingabe (mit der gesprochenen Wortgruppe) vergleicht. In die Berechnung der Ähnlichkeit fließen neben symbolischen Faktoren (z. B. ein entsprechendes im Wortschatz hinterlegtes Lautsymbol) auch signalbezogene Parameter (z. B. Sprechereigenschaften) mit ein. Dies führt dazu, dass dem besten Treffer häufig Alternativen folgen, welche nach der erkannten akustischen Ähnlichkeit geordnet sind. Diese Ordnung ist allerdings dem durchschnittlichen Nutzer nicht nachvollziehbar.
Daher ist es die Aufgabe der vorliegenden Erfindung, die Trefferliste bei einer automatischen Spracherkennung derart zu erstellen, dass die Ordnung der Trefferliste dem Nutzer einsichtiger ist, als dies nach dem Stand der Technik der Fall ist.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren zur Erzeugung einer Trefferliste nach Anspruch 1, durch eine Vorrichtung zur Erzeugung einer Trefferliste nach Anspruch 5 und ein Fahrzeug nach Anspruch 7 gelöst. Die abhängigen Ansprüche definieren bevorzugte und vorteilhafte Ausführungsformen der vorliegenden Erfindung.
Im Rahmen der vorliegenden Erfindung wird ein Verfahren zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung bereitgestellt. Dabei umfasst die Trefferliste mindestens eine Trefferlisten-Wortgruppe, d. h. die Trefferliste umfasst demnach eine oder mehrere Trefferlisten-Wortgruppen. Unter einer Wortgruppe wird dabei eine Aneinanderreihung von einem Wort oder eine Aneinanderreihung von mehreren Wörtern verstanden. Die Trefferliste wird ausgehend von einer beispielsweise von einem Benutzer gesprochenen Wortgruppe von der Spracherkennung als mögliche Treffer erzeugt. Zur Erzeugung der Trefferliste wird von mindestens einer Ausgangs-Wortgruppe (also einer oder mehreren Ausgangs-Wortgruppen) ausgegangen, wobei diese mindestens eine Ausgangs-Wortgruppe von der Spracherkennung als Treffer bestimmt wird. Abhängig oder ausgehend von dieser mindestens einen Ausgangs-Wortgruppe wird mittels des Levenshtein-Verfahrens die Trefferliste derart erstellt, dass die Trefferliste die mindestens eine Ausgangs-Wortgruppe umfasst.
Anders ausgedrückt erzeugt die Spracherkennung mehrere Ausgangs-Wortgruppen, aus welchen dann mittels des Levenshtein-Verfahrens die Trefferliste erzeugt wird. Dabei können die Ausgangs-Wortgruppen beispielsweise mittels des Levenshtein-Verfahrens sortiert werden, wie es im Folgenden noch ausgeführt wird, oder es können ausgehend von den Ausgangs-Wortgruppen mittels des Levenshtein-Verfahrens weitere Treffer erzeugt werden, wobei die dann entstehende Trefferliste wiederum mittels des Levenshtein-Verfahrens sortiert werden kann.
Durch den Einsatz des Levenshtein-Verfahrens entsteht eine Trefferliste, welche aus Wortgruppen oder Zeichenketten besteht und welche mit Hilfe der symbolischen Ähnlichkeit dieser Wortgruppen aufgebaut ist. Dadurch weisen die in der Trefferliste enthaltenen Treffer oder Wortgruppen eine ähnliche Orthographie oder sind entsprechend der Orthographie geordnet, so dass die Trefferliste insgesamt ein Ergebnis der Spracherkennung liefert, welches für den Benutzer nachvollziehbarer ist, als dies nach dem Stand der Technik der Fall ist.
Gemäß einer erfindungsgemäßen Ausführungsform umfasst die Trefferliste mehrere Trefferlisten-Wortgruppen. Dabei ermittelt die Spracherkennung innerhalb der Elemente oder Wortgruppen der Trefferliste den besten Treffer und sortiert die Elemente der Trefferliste gemäß der Levenshtein-Distanz, die jedes Element der Trefferliste jeweils von dem besten Treffer besitzt, wobei der beste Treffer das erste Element der Trefferliste ist. Bei dieser Sortierung wird mit ansteigender Levenshtein-Distanz sortiert, so dass die dem besten Treffer in der Trefferliste folgenden Treffer eine geringere Levenshtein-Distanz aufweisen, als diejenigen Treffer in der Trefferliste, welche weiter hinten oder am Schluss der Trefferliste einsortiert werden. Demnach wird gemäß dieser Ausführungsform nach zunehmender Levenshtein-Distanz geordnet oder sortiert, und die Trefferliste beginnt mit dem besten Treffer bzw. einer Levenshtein-Distanz von O.
Die gemäß dieser Ausführungsform entstehende Trefferliste ist gemäß abnehmender symbolischer Ähnlichkeit oder abnehmender Ähnlichkeit auf Buchstabenebene geordnet, so dass diejenigen Treffer, welche eine höhere symbolische Ähnlichkeit mit dem besten Treffer aufweisen, weiter oben in der Trefferliste stehen, als diejenigen Treffer, welche eine geringere symbolische Ähnlichkeit mit dem besten Treffer aufweisen.
Gemäß einer weiteren erfindungsgemäßen Ausführungsform wird der Trefferliste zusätzlich eine oder mehrere weitere Wortgruppen hinzugefügt, welche eine möglichst geringe Levenshtein-Distanz von dem besten Treffer aufweisen. Dabei kann/können diese eine oder diese mehreren weiteren Wortgruppen in einer vorab bestimmten Wortgruppenmenge enthalten sein, welche auch den besten Treffer umfasst.
Mit anderen Worten werden bei dieser Ausführungsform weitere Elemente der Trefferliste hinzugefügt, ohne dass dazu die Spracherkennung eingesetzt wird. Ausgehend von dem besten Treffer, welcher über die Spracherkennung bestimmt wird, werden dabei weitere Wortgruppen bestimmt, welche eine möglichst kleine Levenshtein-Distanz von dem besten Treffer aufweisen. Um dabei nicht völlig unsinnige Wortgruppen zu erzeugen, kann das Verfahren derart eingeschränkt werden, dass vorab eine bestimmte Wortgruppenmenge festgelegt wird (beispielsweise alle Ortsnamen innerhalb einer bestimmten Region), aus welcher die weiteren Wortgruppen entnommen werden müssen.
Im Rahmen der vorliegenden Erfindung wird auch eine Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung bereitgestellt. Dabei umfasst die Vorrichtung Erfassungsmittel (beispielsweise ein Mikrofon), um eine gesprochene Wortgruppe zu erfassen, Spracherkennungsmittel, um ausgehend von der gesprochenen Wortgruppe eine Spracherkennung durchzuführen, und Ausgabemittel (z. B. einen Monitor), um die mittels der Spracherkennung erzeugte Trefferliste auszugeben oder darzustellen. Dabei erzeugen die Spracherkennungsmittel die Trefferliste, indem ausgehend von der gesprochenen Wortgruppe mindestens eine Trefferlisten-Wortgruppe als Treffer der Spracherkennung bestimmt wird. Quasi als Zwischenschritt ermitteln die Spracherkennungsmittel mindestens eine Ausgangs-Wortgruppe, indem die Spracherkennungsmittel abhängig von der gesprochenen Wortgruppe die Spracherkennung durchführen. Mittels des Levenshtein-Verfahrens wird ausgehend von dieser mindestens einen Ausgangs-Wortgruppe die Trefferliste erzeugt, welche die mindestens eine Ausgangs-Wortgruppe umfasst.
Die Vorteile der erfindungsgemäßen Vorrichtung entsprechen im Wesentlichen den Vorteilen des erfindungsgemäßen Verfahrens, weshalb hier auf eine Wiederholung verzichtet wird.
Schließlich wird im Rahmen der vorliegenden Erfindung ein Fahrzeug bereitgestellt, welches eine erfindungsgemäße Vorrichtung umfasst.
Die vorliegende Erfindung ist insbesondere für die Erzeugung von Sprachbefehlen oder für die Vorgabe von Ortsnamen oder Adressen beispielsweise bei einem Navigationssystem geeignet. Selbstverständlich ist die vorliegende Erfindung nicht auf diesen bevorzugten Anwendungsbereich beschränkt, sondern kann beispielsweise auch bei allgemeinen Diktiersystemen eingesetzt werden.
Im Folgenden werden das Levenshtein-Verfahren und erfindungsgemäße Ausführungsformen mit Bezug zu den beigefügten Figuren im Detail erläutert.
In 1 ist dargestellt, wie bisher und wie mit der vorliegenden Erfindung eine Trefferliste erzeugt wird.
In 2 ist schematisch ein erfindungsgemäßes Fahrzeug mit einer erfindungsgemäßen Vorrichtung zur Erzeugung einer Trefferliste dargestellt.
Die Levenshtein-Distanz, welche bisweilen auch als Edit-Distanz, Editierdistanz oder Editierabstand bezeichnet wird, gibt in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten (Wortgruppen) bezüglich der minimalen Anzahl der Operationen „Einfügen”, „Löschen” und „Ersetzen” an, um die eine der zwei Zeichenketten in die andere der zwei Zeichenketten zu überführen. Die Levenshtein-Distanz trägt ihren Narren nach dem russischen Wissenschaftler Wladimir Levenshtein, der die Levenshtein-Distanz 1965 einführte.
Um beispielsweise von der Zeichenkette ”Tier” zu der Zeichenkette ”Tor” zu kommen, ist eine Ersetzung und eine Löschung notwendig, so dass die Levenshtein- Distanz demnach 2 beträgt, wie man an unten dargestelltem Vorgehen sieht:

1. Tier
2. Toer (Ersetze i durch o)
3. Tor (Lösche e)

Im Folgenden wird ein Algorithmus beschrieben, um die Levenshtein-Distanz zwischen zwei Zeichenketten oder Wortgruppen zu bestimmen.
Dieser Algorithmus berechnet die Levenshtein-Distanz mittels einer Matrix der Form (n + 1) × (m + 1), wobei n und m jeweils die Länge der zu vergleichenden Zeichenketten sind. Dabei wird die eine Zeichenkette quasi in die –1-te Zeile der Matrix und die andere Zeichenkette in die –1-te Spalte der Matrix, jeweils mit einem führenden Leerzeichen „” (hier ε genannt) geschrieben, wie es unten in Tabelle 1 dargestellt ist.
Das Element D_0,0, welches in der 0-ten Spalte und in der 0-ten Zeile der Matrix liegt, weist per Definition den Wert 0 auf, d. h. D_0,0 = 0.
Für alle anderen Elemente der Matrix gilt folgende Vorschrift:
Somit ergibt sich folgende Tabelle 1:

ε T o r

ε 0 1 2 3

T 1 0 1 2

i 2 1 1 2

e 3 2 2 2

r 4 3 3 2

Tabelle 1
In der oben dargestellten Tabelle ist die eigentliche Matrix, welche die Elemente D_i,j enthält, extra mittels der dicken Linie gekennzeichnet. Die Matrix kann beispielsweise von der oberen linken Ecke (D_0,0) zu der unteren rechten Ecke (D_4,3) gefüllt werden, wobei mit D_0,0 = 0 begonnen wird, wie es oben definiert ist. Der Wert eines Elements D_i,j wird dabei abhängig von seinem linken Nachbarelement D_i,j-1, seinem oberen Nachbarelement D_i-1,j und seinem linken oberen diagonalen Nachbarelement D_i-1,j-1 berechnet. Dabei wird der Wert des Elements mit einer Ausnahme dadurch bestimmt, dass das Minimum aus dem Wert seines linken Nachbarelements, aus dem Wert seines oberen Nachbarelements und aus dem Wert seines linken oberen diagonalen Nachbarelements bestimmt wird und dieses Minimum um 1 erhöht wird. Nur wenn der Wert des linken oberen diagonalen Nachbarelements gleich diesem Minimum ist und gleichzeitig das der Position des Elements entsprechende Zeichen in den beiden Zeichenketten gleich ist, entspricht der Wert des Elements dem Wert seines linken oberen diagonalen Nachbarelements.
Im Folgenden ist ein Pseudocode eines Algorithmus zur Bestimmung der Levenshtein-Distanz angeben, wobei diesem Algorithmus mittels s eine erste Zeichenkette der Länge n und mittels t eine zweite Zeichenkette der Länge m vorgegeben wird und der Algorithmus die Levenshtein-Distanz dieser beiden Zeichenketten zurückgibt:
In 1 ist dargestellt, wie ein erfindungsgemäßes Verfahren im Vergleich zu einem Verfahren nach dem Stand der Technik arbeitet. Einer Spracherkennungssoftware 5 wird eine gesprochene Eingabe vorgegeben. Über eine Merkmalsextraktion und eine Suche erzeugt die Spracherkennungssoftware 5 eine Trefferliste, bei welcher die einzelnen Elemente lautsprachlich repräsentiert werden. Aus dieser Vorab-Trefferliste wird dann eine Trefferliste erzeugt, wobei die einzelnen Elemente dieser Trefferliste schriftsprachlich repräsentiert sind, d. h. die Elemente dieser Trefferliste sind Wortgruppen oder einzelne Wörter in Schriftform.
Mit dem Bezugszeichen 6 ist die Trefferliste gekennzeichnet, bei welcher die einzelnen Elemente der Trefferliste gemäß der Erkennerkriterien sortiert sind, wie es nach dem Stand der Technik der Fall ist. Mit dem Bezugszeichen 7 ist eine erfindungsgemäß erzeugte Trefferliste gekennzeichnet, wobei die einzelnen Elemente der Trefferliste nach absteigender Levenshtein-Distanz zum besten Treffer, welcher oben in der Trefferliste steht, sortiert sind. Zum besseren Verständnis ist dabei in der Trefferliste 7 die Levenshtein-Distanz in Klammern angegeben.
Man erkennt, dass die Wortgruppe oder besser das Wort ”Beatles” eine größere symbolische Ähnlichkeit mit dem Wort ”Eagles” aufweist, als mit dem Wort ”B-52s”, weshalb das Wort ”Eagles” bei der erfindungsgemäßen Trefferliste 7 an zweiter Stelle steht, während bei der Trefferliste 6 nach dem Stand der Technik das Wort „B-52s” an zweiter Stelle steht, welches unter den Elementen der Trefferliste die geringste symbolische Ähnlichkeit mit dem besten Treffer ”Beatles” aufweist.
In 2 ist schematisch ein erfindungsgemäßes Fahrzeug 10 dargestellt, welches eine erfindungsgemäße Vorrichtung 1 zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung umfasst. Die erfindungsgemäße Vorrichtung 1 umfasst ihrerseits einen Mikroprozessor 2, ein Mikrofon 3 und eine Anzeige 4 zur Darstellung der Trefferliste 7. Über das Mikrofon 3 wird beispielsweise von einem Fahrer des Fahrzeugs 10 eine gesprochene Wortgruppe (z. B. ein Sprachbefehl oder ein Ortsname) aufgenommen bzw. erfasst und an den Mikroprozessor 2 weitergeleitet, in welchem eine Spracherkennung installiert ist. Der Mikroprozessor 2 analysiert die gesprochene Wortgruppe und erzeugt eine erfindungsgemäße Trefferliste 7, welche der Mikroprozessor 2 dann über die Anzeige 4 ausgibt.

1: Vorrichtung
2: Mikroprozessor
3: Mikrophon
4: Anzeige
5: Spracherkennung
6: Trefferliste sortiert nach Erkennerkriterien
7: Trefferliste sortiert nach Levenshtein-Distanz
10: Fahrzeug

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- DE 102004055230 B3 [0002]
- DE 10308611 A1 [0003]
- US 7386441 B2 [0004]
- DE 10244722 A1 [0005]
- US 6393395 B1 [0006]

Claims

Verfahren zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung, wobei die Trefferliste mindestens eine Trefferlisten-Wortgruppe umfasst, welche ausgehend von einer gesprochenen Wortgruppe von der Spracherkennung als mögliche Treffer erzeugt wird, wobei jede Wortgruppe mindestens ein Wort umfasst, dadurch gekennzeichnet, dass die Trefferliste ausgehend von mindestens einer Ausgangs-Wortgruppe, welche von der Spracherkennung als ein Treffer bestimmt wird, mittels des Levenshtein-Verfahrens erzeugt wird, wobei die Trefferliste die mindestens eine Ausgangs-Wortgruppe umfasst.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Trefferliste mehrere Trefferlisten-Wortgruppen umfasst, dass in der Trefferliste von der Spracherkennung der beste Treffer bestimmt wird, und dass die Trefferlisten-Wortgruppen nach der Levenshtein-Distanz, welche die Trefferlisten-Wortgruppen jeweils von dem besten Treffer aufweisen, mit ansteigender Levenshtein-Distanz sortiert werden.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass in der Trefferliste von der Spracherkennung der beste Treffer bestimmt wird, und dass der Trefferliste zusätzlich mindestens eine weitere Wortgruppe hinzugefügt wird, indem ausgehend von dem besten Treffer die mindestens eine weitere Wortgruppe bestimmt wird, welche eine möglichst geringe Levenshtein-Distanz aufweist/en.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die mindestens eine weitere Wortgruppe in einer vorab bestimmten Wortgruppenmenge enthalten ist, welche auch den besten Treffer umfasst.
Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung, wobei die Vorrichtung Erfassungsmittel zum Erfassen einer gesprochenen Wortgruppe, Spracherkennungsmittel zur Durchführung einer Spracherkennung und Ausgabemittel zur Ausgabe der Trefferliste umfasst, wobei die Spracherkennungsmittel die Trefferliste erzeugen, indem die Spracherkennungsmittel ausgehend von der gesprochenen Wortgruppe mindestens eine Trefferlisten-Wortgruppe als Treffer der Spracherkennung bestimmen, wobei jede Wortgruppe mindestens ein Wort umfasst, dadurch gekennzeichnet, dass die Spracherkennungsmittel die Trefferliste ausgehend von mindestens einer Ausgangs-Wortgruppe, welche die Spracherkennungsmittel bei der Durchführung der Spracherkennung als einen Treffer bestimmen, mittels des Levenshtein-Verfahrens erzeugen, wobei die Trefferliste die mindestens eine Ausgangs-Wortgruppe umfasst.
Vorrichtung nach Anspruch 5, dadurch gekennzeichnet, dass die Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1–4 ausgestaltet ist.
Fahrzeug mit einer Vorrichtung nach Anspruch 5 oder 6.