-
Die
vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung,
um bei einer automatischen Spracherkennung eine Trefferliste zu
erzeugen.
-
Die
DE 10 2004 055 230
B3 beschreibt ein Verfahren zur Erkennung einer gesprochenen
Eingabe. Dabei wird ein vorgebbares Vokabular in mehrere Abschnitte
mit phonetisch ähnlichen Wörtern eingeteilt. In einem
ersten Schritt wird die gesprochene Eingabe einem Abschnitt zugeteilt
und im zweiten Schritt wird die gesprochene Eingabe aus einem Vokabular
des zugeteilten Abschnitts ermittelt.
-
Die
DE 103 08 611 A1 beschäftigt
sich mit der Verwechslungsgefahr von Vokabulareinträgen.
Dabei wird mittels des Levenshtein-Algorithmus der Abstand zwischen
zwei Phonemfolgen bestimmt.
-
Die
US 7,386,441 B2 beschreibt
eine Verarbeitung natürlicher Sprache mit Operationen,
welche auf gewichteten und nicht gewichteten Multi-Tape-Automaten
arbeiten.
-
Die
DE 102 44 722 A1 stellt
sich die Aufgabe, zwei Folgen lautsprachlicher Einheiten miteinander
zu vergleichen. Dabei wird das Levenshtein-Verfahren zur Bestimmung
einer Distanz zweier Artikulations-Merkmalsvektoren eingesetzt.
-
Die
US 6,393,395 B1 betrifft
eine Wiedererkennung einer handgeschriebenen Schrift und einer Sprache.
-
Statistische
Spracherkennungssysteme berechnen aus der von einem Nutzer gesprochenen
Wortgruppe (z. B. einem Sprachbefehl) eine geordnete Trefferliste
von möglichen erkannten Wortgruppen, welche im so genannten
Wortschatz des Spracherkennungssystems definiert sind. Diese Trefferliste
ist nach einem Konfidenzmaß geordnet, welches die laut
Repräsentation der im Wortschatz enthaltenen Wortgruppen
mit der tatsächlichen Nutzereingabe (mit der gesprochenen
Wortgruppe) vergleicht. In die Berechnung der Ähnlichkeit fließen
neben symbolischen Faktoren (z. B. ein entsprechendes im Wortschatz hinterlegtes
Lautsymbol) auch signalbezogene Parameter (z. B. Sprechereigenschaften)
mit ein. Dies führt dazu, dass dem besten Treffer häufig
Alternativen folgen, welche nach der erkannten akustischen Ähnlichkeit
geordnet sind. Diese Ordnung ist allerdings dem durchschnittlichen
Nutzer nicht nachvollziehbar.
-
Daher
ist es die Aufgabe der vorliegenden Erfindung, die Trefferliste
bei einer automatischen Spracherkennung derart zu erstellen, dass
die Ordnung der Trefferliste dem Nutzer einsichtiger ist, als dies
nach dem Stand der Technik der Fall ist.
-
Erfindungsgemäß wird
diese Aufgabe durch ein Verfahren zur Erzeugung einer Trefferliste
nach Anspruch 1, durch eine Vorrichtung zur Erzeugung einer Trefferliste
nach Anspruch 5 und ein Fahrzeug nach Anspruch 7 gelöst.
Die abhängigen Ansprüche definieren bevorzugte
und vorteilhafte Ausführungsformen der vorliegenden Erfindung.
-
Im
Rahmen der vorliegenden Erfindung wird ein Verfahren zur Erzeugung
einer Trefferliste bei einer automatischen Spracherkennung bereitgestellt.
Dabei umfasst die Trefferliste mindestens eine Trefferlisten-Wortgruppe,
d. h. die Trefferliste umfasst demnach eine oder mehrere Trefferlisten-Wortgruppen.
Unter einer Wortgruppe wird dabei eine Aneinanderreihung von einem
Wort oder eine Aneinanderreihung von mehreren Wörtern verstanden.
Die Trefferliste wird ausgehend von einer beispielsweise von einem
Benutzer gesprochenen Wortgruppe von der Spracherkennung als mögliche
Treffer erzeugt. Zur Erzeugung der Trefferliste wird von mindestens
einer Ausgangs-Wortgruppe (also einer oder mehreren Ausgangs-Wortgruppen)
ausgegangen, wobei diese mindestens eine Ausgangs-Wortgruppe von
der Spracherkennung als Treffer bestimmt wird. Abhängig
oder ausgehend von dieser mindestens einen Ausgangs-Wortgruppe wird
mittels des Levenshtein-Verfahrens die Trefferliste derart erstellt,
dass die Trefferliste die mindestens eine Ausgangs-Wortgruppe umfasst.
-
Anders
ausgedrückt erzeugt die Spracherkennung mehrere Ausgangs-Wortgruppen,
aus welchen dann mittels des Levenshtein-Verfahrens die Trefferliste
erzeugt wird. Dabei können die Ausgangs-Wortgruppen beispielsweise
mittels des Levenshtein-Verfahrens sortiert werden, wie es im Folgenden
noch ausgeführt wird, oder es können ausgehend
von den Ausgangs-Wortgruppen mittels des Levenshtein-Verfahrens
weitere Treffer erzeugt werden, wobei die dann entstehende Trefferliste
wiederum mittels des Levenshtein-Verfahrens sortiert werden kann.
-
Durch
den Einsatz des Levenshtein-Verfahrens entsteht eine Trefferliste,
welche aus Wortgruppen oder Zeichenketten besteht und welche mit
Hilfe der symbolischen Ähnlichkeit dieser Wortgruppen aufgebaut ist.
Dadurch weisen die in der Trefferliste enthaltenen Treffer oder
Wortgruppen eine ähnliche Orthographie oder sind entsprechend
der Orthographie geordnet, so dass die Trefferliste insgesamt ein
Ergebnis der Spracherkennung liefert, welches für den Benutzer
nachvollziehbarer ist, als dies nach dem Stand der Technik der Fall
ist.
-
Gemäß einer
erfindungsgemäßen Ausführungsform umfasst
die Trefferliste mehrere Trefferlisten-Wortgruppen. Dabei ermittelt
die Spracherkennung innerhalb der Elemente oder Wortgruppen der
Trefferliste den besten Treffer und sortiert die Elemente der Trefferliste
gemäß der Levenshtein-Distanz, die jedes Element
der Trefferliste jeweils von dem besten Treffer besitzt, wobei der
beste Treffer das erste Element der Trefferliste ist. Bei dieser
Sortierung wird mit ansteigender Levenshtein-Distanz sortiert, so
dass die dem besten Treffer in der Trefferliste folgenden Treffer
eine geringere Levenshtein-Distanz aufweisen, als diejenigen Treffer
in der Trefferliste, welche weiter hinten oder am Schluss der Trefferliste
einsortiert werden. Demnach wird gemäß dieser
Ausführungsform nach zunehmender Levenshtein-Distanz geordnet
oder sortiert, und die Trefferliste beginnt mit dem besten Treffer
bzw. einer Levenshtein-Distanz von O.
-
Die
gemäß dieser Ausführungsform entstehende
Trefferliste ist gemäß abnehmender symbolischer Ähnlichkeit
oder abnehmender Ähnlichkeit auf Buchstabenebene geordnet,
so dass diejenigen Treffer, welche eine höhere symbolische Ähnlichkeit
mit dem besten Treffer aufweisen, weiter oben in der Trefferliste
stehen, als diejenigen Treffer, welche eine geringere symbolische Ähnlichkeit
mit dem besten Treffer aufweisen.
-
Gemäß einer
weiteren erfindungsgemäßen Ausführungsform
wird der Trefferliste zusätzlich eine oder mehrere weitere
Wortgruppen hinzugefügt, welche eine möglichst
geringe Levenshtein-Distanz von dem besten Treffer aufweisen. Dabei
kann/können diese eine oder diese mehreren weiteren Wortgruppen
in einer vorab bestimmten Wortgruppenmenge enthalten sein, welche
auch den besten Treffer umfasst.
-
Mit
anderen Worten werden bei dieser Ausführungsform weitere
Elemente der Trefferliste hinzugefügt, ohne dass dazu die
Spracherkennung eingesetzt wird. Ausgehend von dem besten Treffer,
welcher über die Spracherkennung bestimmt wird, werden
dabei weitere Wortgruppen bestimmt, welche eine möglichst
kleine Levenshtein-Distanz von dem besten Treffer aufweisen. Um
dabei nicht völlig unsinnige Wortgruppen zu erzeugen, kann
das Verfahren derart eingeschränkt werden, dass vorab eine
bestimmte Wortgruppenmenge festgelegt wird (beispielsweise alle
Ortsnamen innerhalb einer bestimmten Region), aus welcher die weiteren Wortgruppen
entnommen werden müssen.
-
Im
Rahmen der vorliegenden Erfindung wird auch eine Vorrichtung zur
Erzeugung einer Trefferliste bei einer automatischen Spracherkennung
bereitgestellt. Dabei umfasst die Vorrichtung Erfassungsmittel (beispielsweise
ein Mikrofon), um eine gesprochene Wortgruppe zu erfassen, Spracherkennungsmittel,
um ausgehend von der gesprochenen Wortgruppe eine Spracherkennung
durchzuführen, und Ausgabemittel (z. B. einen Monitor),
um die mittels der Spracherkennung erzeugte Trefferliste auszugeben
oder darzustellen. Dabei erzeugen die Spracherkennungsmittel die
Trefferliste, indem ausgehend von der gesprochenen Wortgruppe mindestens
eine Trefferlisten-Wortgruppe als Treffer der Spracherkennung bestimmt
wird. Quasi als Zwischenschritt ermitteln die Spracherkennungsmittel
mindestens eine Ausgangs-Wortgruppe, indem die Spracherkennungsmittel
abhängig von der gesprochenen Wortgruppe die Spracherkennung
durchführen. Mittels des Levenshtein-Verfahrens wird ausgehend
von dieser mindestens einen Ausgangs-Wortgruppe die Trefferliste
erzeugt, welche die mindestens eine Ausgangs-Wortgruppe umfasst.
-
Die
Vorteile der erfindungsgemäßen Vorrichtung entsprechen
im Wesentlichen den Vorteilen des erfindungsgemäßen
Verfahrens, weshalb hier auf eine Wiederholung verzichtet wird.
-
Schließlich
wird im Rahmen der vorliegenden Erfindung ein Fahrzeug bereitgestellt,
welches eine erfindungsgemäße Vorrichtung umfasst.
-
Die
vorliegende Erfindung ist insbesondere für die Erzeugung
von Sprachbefehlen oder für die Vorgabe von Ortsnamen oder
Adressen beispielsweise bei einem Navigationssystem geeignet. Selbstverständlich ist
die vorliegende Erfindung nicht auf diesen bevorzugten Anwendungsbereich
beschränkt, sondern kann beispielsweise auch bei allgemeinen
Diktiersystemen eingesetzt werden.
-
Im
Folgenden werden das Levenshtein-Verfahren und erfindungsgemäße
Ausführungsformen mit Bezug zu den beigefügten
Figuren im Detail erläutert.
-
In 1 ist
dargestellt, wie bisher und wie mit der vorliegenden Erfindung eine
Trefferliste erzeugt wird.
-
In 2 ist
schematisch ein erfindungsgemäßes Fahrzeug mit
einer erfindungsgemäßen Vorrichtung zur Erzeugung
einer Trefferliste dargestellt.
-
Die
Levenshtein-Distanz, welche bisweilen auch als Edit-Distanz, Editierdistanz
oder Editierabstand bezeichnet wird, gibt in der Informationstheorie
ein Maß für den Unterschied zwischen zwei Zeichenketten (Wortgruppen)
bezüglich der minimalen Anzahl der Operationen „Einfügen”, „Löschen” und „Ersetzen” an,
um die eine der zwei Zeichenketten in die andere der zwei Zeichenketten
zu überführen. Die Levenshtein-Distanz trägt
ihren Narren nach dem russischen Wissenschaftler Wladimir Levenshtein,
der die Levenshtein-Distanz 1965 einführte.
-
Um
beispielsweise von der Zeichenkette ”Tier” zu
der Zeichenkette ”Tor” zu kommen, ist eine Ersetzung
und eine Löschung notwendig, so dass die Levenshtein- Distanz
demnach 2 beträgt, wie man an unten dargestelltem Vorgehen
sieht:
- 1. Tier
- 2. Toer (Ersetze i durch o)
- 3. Tor (Lösche e)
-
Im
Folgenden wird ein Algorithmus beschrieben, um die Levenshtein-Distanz
zwischen zwei Zeichenketten oder Wortgruppen zu bestimmen.
-
Dieser
Algorithmus berechnet die Levenshtein-Distanz mittels einer Matrix
der Form (n + 1) × (m + 1), wobei n und m jeweils die Länge
der zu vergleichenden Zeichenketten sind. Dabei wird die eine Zeichenkette quasi
in die –1-te Zeile der Matrix und die andere Zeichenkette
in die –1-te Spalte der Matrix, jeweils mit einem führenden
Leerzeichen „” (hier ε genannt) geschrieben,
wie es unten in Tabelle 1 dargestellt ist.
-
Das
Element D0,0, welches in der 0-ten Spalte
und in der 0-ten Zeile der Matrix liegt, weist per Definition den
Wert 0 auf, d. h. D0,0 = 0.
-
Für
alle anderen Elemente der Matrix gilt folgende Vorschrift:
-
Somit
ergibt sich folgende Tabelle 1:
| ε | T | o | r |
ε | 0 | 1 | 2 | 3 |
T | 1 | 0 | 1 | 2 |
i | 2 | 1 | 1 | 2 |
e | 3 | 2 | 2 | 2 |
r | 4 | 3 | 3 | 2 |
Tabelle
1
-
In
der oben dargestellten Tabelle ist die eigentliche Matrix, welche
die Elemente Di,j enthält, extra
mittels der dicken Linie gekennzeichnet. Die Matrix kann beispielsweise
von der oberen linken Ecke (D0,0) zu der unteren
rechten Ecke (D4,3) gefüllt werden,
wobei mit D0,0 = 0 begonnen wird, wie es
oben definiert ist. Der Wert eines Elements Di,j wird
dabei abhängig von seinem linken Nachbarelement Di,j-1, seinem oberen Nachbarelement Di-1,j und seinem linken oberen diagonalen
Nachbarelement Di-1,j-1 berechnet. Dabei
wird der Wert des Elements mit einer Ausnahme dadurch bestimmt,
dass das Minimum aus dem Wert seines linken Nachbarelements, aus
dem Wert seines oberen Nachbarelements und aus dem Wert seines linken
oberen diagonalen Nachbarelements bestimmt wird und dieses Minimum
um 1 erhöht wird. Nur wenn der Wert des linken oberen diagonalen
Nachbarelements gleich diesem Minimum ist und gleichzeitig das der
Position des Elements entsprechende Zeichen in den beiden Zeichenketten
gleich ist, entspricht der Wert des Elements dem Wert seines linken
oberen diagonalen Nachbarelements.
-
Im
Folgenden ist ein Pseudocode eines Algorithmus zur Bestimmung der
Levenshtein-Distanz angeben, wobei diesem Algorithmus mittels s
eine erste Zeichenkette der Länge n und mittels t eine
zweite Zeichenkette der Länge m vorgegeben wird und der
Algorithmus die Levenshtein-Distanz dieser beiden Zeichenketten zurückgibt:
-
In 1 ist
dargestellt, wie ein erfindungsgemäßes Verfahren
im Vergleich zu einem Verfahren nach dem Stand der Technik arbeitet.
Einer Spracherkennungssoftware 5 wird eine gesprochene
Eingabe vorgegeben. Über eine Merkmalsextraktion und eine
Suche erzeugt die Spracherkennungssoftware 5 eine Trefferliste, bei
welcher die einzelnen Elemente lautsprachlich repräsentiert
werden. Aus dieser Vorab-Trefferliste wird dann eine Trefferliste
erzeugt, wobei die einzelnen Elemente dieser Trefferliste schriftsprachlich
repräsentiert sind, d. h. die Elemente dieser Trefferliste
sind Wortgruppen oder einzelne Wörter in Schriftform.
-
Mit
dem Bezugszeichen 6 ist die Trefferliste gekennzeichnet,
bei welcher die einzelnen Elemente der Trefferliste gemäß der
Erkennerkriterien sortiert sind, wie es nach dem Stand der Technik
der Fall ist. Mit dem Bezugszeichen 7 ist eine erfindungsgemäß erzeugte
Trefferliste gekennzeichnet, wobei die einzelnen Elemente der Trefferliste
nach absteigender Levenshtein-Distanz zum besten Treffer, welcher
oben in der Trefferliste steht, sortiert sind. Zum besseren Verständnis
ist dabei in der Trefferliste 7 die Levenshtein-Distanz
in Klammern angegeben.
-
Man
erkennt, dass die Wortgruppe oder besser das Wort ”Beatles” eine
größere symbolische Ähnlichkeit mit dem
Wort ”Eagles” aufweist, als mit dem Wort ”B-52s”,
weshalb das Wort ”Eagles” bei der erfindungsgemäßen
Trefferliste 7 an zweiter Stelle steht, während
bei der Trefferliste 6 nach dem Stand der Technik das Wort „B-52s” an
zweiter Stelle steht, welches unter den Elementen der Trefferliste
die geringste symbolische Ähnlichkeit mit dem besten Treffer ”Beatles” aufweist.
-
In 2 ist
schematisch ein erfindungsgemäßes Fahrzeug 10 dargestellt,
welches eine erfindungsgemäße Vorrichtung 1 zur
Erzeugung einer Trefferliste bei einer automatischen Spracherkennung
umfasst. Die erfindungsgemäße Vorrichtung 1 umfasst
ihrerseits einen Mikroprozessor 2, ein Mikrofon 3 und
eine Anzeige 4 zur Darstellung der Trefferliste 7. Über
das Mikrofon 3 wird beispielsweise von einem Fahrer des
Fahrzeugs 10 eine gesprochene Wortgruppe (z. B. ein Sprachbefehl
oder ein Ortsname) aufgenommen bzw. erfasst und an den Mikroprozessor 2 weitergeleitet,
in welchem eine Spracherkennung installiert ist. Der Mikroprozessor 2 analysiert
die gesprochene Wortgruppe und erzeugt eine erfindungsgemäße
Trefferliste 7, welche der Mikroprozessor 2 dann über
die Anzeige 4 ausgibt.
-
- 1
- Vorrichtung
- 2
- Mikroprozessor
- 3
- Mikrophon
- 4
- Anzeige
- 5
- Spracherkennung
- 6
- Trefferliste
sortiert nach Erkennerkriterien
- 7
- Trefferliste
sortiert nach Levenshtein-Distanz
- 10
- Fahrzeug
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - DE 102004055230
B3 [0002]
- - DE 10308611 A1 [0003]
- - US 7386441 B2 [0004]
- - DE 10244722 A1 [0005]
- - US 6393395 B1 [0006]