DE102013219828B4

DE102013219828B4 - Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle

Info

Publication number: DE102013219828B4
Application number: DE102013219828.0A
Authority: DE
Inventors: Jens Walther
Original assignee: Continental Automotive GmbH
Current assignee: Continental Automotive GmbH
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2019-05-02
Anticipated expiration: 2033-10-01
Also published as: WO2015043802A1; DE102013219828A1

Abstract

Verfahren zum Phonetisieren von textenthaltenden Datensätzen (2) mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als Phonemkette (9) abgespeichert werden, wobei eine in Textform vorliegende Datenliste als textenthaltender gesamter Datensatz (2) mit den mehreren Datensatzteilen in einer Graphem-zu-PhonemKonvertierung in eine zusammenhängende Phonemkette (9) konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten zusammenhängenden Phonemkette befinden dadurch gekennzeichnet, dass die Metadaten genutzt werden, um mindestens eine neue Phonemkette (9) mit anderer Sortierung der Datensatzteile zu erzeugen.

Description

Die Erfindung betrifft ein Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze in Phoneme konvertiert und als Phonemkette, teilweise auch als Phonemkette bezeichnet, abgespeichert werden. Bei den Datensatzteilen handelt es sich typischer Weise um Worte.
Für sprachgesteuerte Benutzerschnittstellen ist es notwendig, meist in Datenbanken vorliegende Datensätze, beispielsweise in Form von Textlisten, zu phonetisieren, um den Inhalt der Datensätze einer Sprachsteuerung zuzuführen, bei der ein Benutzer durch Sprechen der Inhalte der Datensätze in der Benutzerschnittstelle den Datensatz auswählen und eine definierte Aktion auslösen kann.
Ein typisches Anwendungsfeld, auf welches sich die Erfindung auch bevorzugt bezieht, ist die Verwendung einer sprachgesteuerten Benutzerschnittstelle in einer Multimedia-Einheit eines Kraftfahrzeugs, die als sprachgesteuerte Benutzerschnittstelle insbesondere u. a. ein Autotelefon und/oder eine Freisprecheinrichtung eines Kraftfahrzeugs aufweisen kann, so dass der Fahrer des Kraftfahrzeugs durch Angabe eines Kontaktnamens des Telefons die sprachgesteuerte Benutzerschnittstelle für das Aufbauen und Führen eines Telefonats nutzen kann. Natürlich kann die Sprachsteuerung auch zur Steuerung weiterer Funktionen der Multimedia-Einheit genutzt werden, beispielsweise durch Auswahl von Musiktitel, Interpret oder Album zur Wiedergabe durch die Multimediaeinheit.
Grundsätzlich lässt sich die Erfindung bevorzugt bei sprachgesteuerten Schnittstellen nutzen, bei denen textbasierte Dateneinträge umsortierbar sind. Auch wenn die vorbeschriebenen Anwendungen einen bevorzugten Anwendungsfall der Erfindung darstellt, ist diese jedoch nicht auf genau diese Funktion beschränkt, sondern auch allgemein für sprachgesteuerte Benutzerschnittstellen anwendbar, in denen eine in Textform vorliegende Datenliste (Textliste) als textenthaltender Datensatz zur Erkennung durch die Sprachsteuerung phonetisiert werden soll, wobei jeder Listeneintrag der Textliste vorzugsweise mindestens zwei Datensatzteile aufweist.
Bei dem erfindungsgemäß vorgeschlagenen Verfahren werden die als Grapheme, d. h. als Folge von einzelnen Graphem-Symbolen, insbesondere als Buchstabenfolge oder standardisierte Buchstabenfolge, vorliegenden Datensätze in Phoneme, d. h. eine Folge einzelner Phonem-Symbole, konvertiert und als Phonemkette, also phonetisierte Datensätze beispielsweise in einer phonetisierten Datenliste, gespeichert.
Entsprechend der üblichen Definition ist ein Phonem eine Lautdarstellung, die in einer Sprache die kleinste bedeutungsunterscheidende Einheit bildet, d. h. eine distinktive Funktion aufweist. Der Begriff „Phoneme“ wird in dem vorliegenden Text insbesondere als Folge mehrerer einzelner Phonem-Symbole verstanden. Entsprechendes gilt für den Begriff Grapheme, der in dem vorliegenden Text insbesondere als Folge einzelner Graphem-Symbole verstanden wird. Ähnlich einem Phonem stellt ein Graphem (Graphem-Symbol) die in der grafischen Darstellung eines Textes kleinste bedeutungsunterscheidende Einheit dar, und ist häufig durch die Buchstaben einer Schrift definiert.
Wie es bei derartigen sprachgesteuerten Benutzerschnittstellen bereits üblich ist, sollen Listeneinträge der Datensätze der sprachgesteuerten Benutzerschnittstelle für die Spracherkennung zur Verfügung gestellt werden, um bestimmte Listeneinträge aus gesprochenen Befehlen des Benutzers identifizieren zu können. Bei einem dazu notwendigen Verfahren zum Phonetisieren der Datensätze wird ein als Grapheme, d. h. eine Folge einzelner Graphem-Symbole bzw. Textzeichen, welche in beispielsweise der Buchstabendarstellung oder einer standardisierten Buchstabenstellung entsprechen können, vorliegender Datensatz in Phoneme konvertiert und als Phonemkette, d. h. eine Folge einzelner Phonem-Symbole, abgespeichert.
Diese als Phoneme, d. h. als Folge einzelner Phonem-Symbole bzw. Phonemkette, vorliegenden phonetisierten Datensätze können bei der Spracherkennung in der sprachgesteuerten Benutzerschnittstelle dazu verwendet werden, das durch den Benutzer gesprochene Wort mit einem textenthaltenden Listeneintrag aus dem Datensatz in Verbindung zu bringen und so die entsprechend vorgegebenen Funktionen auszuführen. Üblicherweise werden in dieser phonetisierten Datenliste Phoneme als zusammenhängende Phonemkette gespeichert und insbesondere der Spracherkennung bzw. deren Spracherkenner in der sprachgesteuerten Benutzerschnittstelle zur Verfügung gestellt, so dass diese einfach auf die phonetisierte Datenliste zugreifen kann.
Die Datenlisten bzw. -sätze können aus mehreren Worten bzw. Datensatzteilen bestehen, Akronyme enthalten und sind mitunter auch multilingual. Um eine möglichst einfache, natürliche Eingabe von beispielsweise Telefonbuchkontakten zu ermöglichen, werden der Spracherkennung viele mögliche Kombinationen aus Vor-, Nachnamen sowie Teilelemente (Mittelname) derselben angeboten, d. h. allgemein verschiedene Kombinationen der verschiedenen Datensatzteile. Weiterhin gibt es Anforderungen, wie die Expansion von Titeln (Dr.) und Verkettung von häufigen Teilworten (z. B. „de la“ im mexikanischen Spanisch) .
Die Bereitstellung vieler Kombinationen von Vor- und Nachnamen sowie deren Unterelementen, d. h. allgemein vieler Kombinationen von Datensatzteilen, kann beispielsweise in einer in der sprachgesteuerten Benutzerschnittstelle vorhandenen Spracherkennung bzw. dem Spracherkenner erfolgen.
Bei den bisherigen Systemen wurde das Neuerstellen der Phonemketteen bzw. der sprachgesteuerten Datenliste durch eine Neuphonetisierung der umgestellten Datensätze realisiert. Um eine Teildatensatzerkennung zu realisieren, werden Teilworte aus den Datensätzen bzw. Datenlisten nach bestimmten Regeln ermittelt und neu kombiniert. So werden beispielsweise bei Kontaktdaten bestehend aus Vorname, Mittelname und Nachname alle Permutationen erstellt. So entstehen fünf Textvarianten.
Bei einer noch größeren Anzahl von Datensatzteilen steigt die Anzahl der Textvarianten exponentiell. Zusätzlich müssen noch Duplikate ermittelt und bestimmte Akronyme (wie beispielsweise „Dr.“) expandiert werden.
Bei bisher bekannten Lösungen wird die so erzeugte Vielzahl von Textvarianten anschließend mit einer Graphem-zu-Phonem-Konvertierung in verschiedene Phonemketten umgewandelt. So werden mehrere Varianten von phonetisierten Datensätzen erzeugt und beispielsweise in die sprachgesteuerte Benutzerschnittstelle zur Spracherkennung eingefügt. Die Prozessorlast und der Speicherbedarf für diesen Prozess sind erheblich. Da die Phonetisierung sehr rechen- und damit ressourcenaufwendig ist, kommt es bei der Neuphonetisierung einer größeren Datenliste und deren Varianten für den Benutzer zu einer spürbaren Latenz bzw. Wartezeit, bis die sprachgesteuerte Benutzerschnittstelle zur Erkennung von Namen aus der Datenliste bzw. allgemeiner von Listeneinträgen verwendet werden kann.
Ein ähnliches Verfahren ist aus der EP 1 798 723 A1 bekannt, bei der einem auswählbaren Listeneintrag (in dem Beispiel einem Radiosender) mehrere Phonemketten (Sprachmuster) zugeordnet werden. Es wird zudem auf die WO 97/ 34 291 A1 hingewiesen.
Dies ist insbesondere deshalb nachteilig, weil ein Benutzer daran gewöhnt ist, die in mobilen Datengeräten mit Datenbankfunktion, beispielsweise Mobiltelefonen mit einer Kontaktdatenbank, gespeicherten Daten direkt nach Start des Infotainment-Systems bzw. Verbindung der Freisprecheinrichtung zur Verfügung stehen. Die Phonetisierung vieler verschiedenere Textvarianten erfordert jedoch eine zu große Rechenzeit.
Zur Vermeidung dieser Problematik wurde bereits vorgeschlagen, dass in dem Text eines Listeneintrags, beispielsweise zwischen Vor- und Nachnamen, ein Trennzeichen zwischen den jeweiligen Datenfeldern des Listeneintrags eingefügt, mit in die Phonemkette konvertiert und dort als Phonem-Symbol (einzelnes Phonem) in der den phonetisierten Datensatz bildenden Phonemkette abgespeichert wird. Bei dem Erzeugen des phonetisierten Datensatzes in der Spracherkennung bleibt das das Trennzeichen in dem Text des Listeneintrags symbolisierende Phonem-Symbol dagegen unberücksichtigt, d. h. es wird nicht in die Phoneme eines Listeneintrags integriert. Hierdurch wird vermieden, dass das das Trennzeichen symbolisierende Phonem-Symbol mit gesprochen werden muss, damit der gesprochene Text erkannt werden kann.
Auch dies ist jedoch umständlich, da in dem System Phoneme identifiziert werden müssen, die für eine Spracherkennung unberücksichtigt bleiben. Dies führt auch dazu, dass sich die erzeugte Phonemkette nicht universell zur Spracherkennung in beliebigen Geräten nutzen lässt, weil in Geräten die Phonem-Symbole, welche bei der Spracherkennung unberücksichtigt bleiben sollen, nicht unbedingt kennen und diese Phoneme in den Befehlen so mit gesprochen werden müssten. Außerdem müssen die Grapheme zuvor durch Ergänzung von speziellen Zeichen verändert werden, um eine Art Indexierung zu erzeugen.
Aufgabe der Erfindung ist es, eine einfachere und insgesamt wenig Latenzzeit erfordernde Möglichkeit vorzuschlagen, mit der textenthaltende Datensätze insbesondere für eine sprachgesteuerte Benutzerschnittstelle phonetisiert werden können und bei der einzelne Datensatzteile in der Phonemkette umgestellt werden können.
Diese Aufgabe wird erfindungsgemäß mit den Merkmalen des Anspruchs 1 gelöst.
Dazu ist bei einem Verfahren der eingangs genannten Art insbesondere vorgesehen, dass jeweils ein gesamter Datensatz mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-Konvertierung eine zusammenhängend Phonemkette konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung, insbesondere durch einen Phonetik-Postprozessor, Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten, zusammenhängenden Phonemkette befinden. Dadurch wird nur einmal für den vollständigen Datensatz eine Graphem-zu-Phonem-Konvertierung durchgeführt. Dies ist anders als im Stand der Technik nicht für jeden Teildatensatz, d. h. die einzelnen Datensatzteile des textenthaltenden Datensatzes, und deren Kombinationen notwendig. Vielmehr liegt sofort eine vollständige Phonemkette zu dem als Graphem gespeicherten Datensatz vor, die unmittelbar in einer Spracherkennung verwendet werden kann. Für je nach Datensatz speziell ausgewählte Kriterien, beispielsweise Pausen zwischen den einzelnen Datenworten oder der Erkennung von Textelementen oder Zahlen oder dergleichen, werden dann aus der Phonemkette Metadaten ermittelt, die die Position der einzelnen ermittelten Datensatzteile in der zusammenhängenden Phonemkette anzeigt. Dies erlaubt einen gezielten Zugriff auf bestimmte Positionen in der Phonemkette, so dass es nicht notwendig ist, verschiedene Sortierungen der einzelnen Datensatzteile in jeweils eigenständige Phonemketten zu wandeln oder in der Phonemkette selbst als Phonem gespeicherte Ordnungskennzeichen vorzusehen, die von den Geräten entsprechend erkannt und verarbeitet werden müssen.
Gemäß einer bevorzugten Ausführungsform können die Metadaten zusammen mit der Phonemkette abgespeichert werden, d. h. insbesondere in dem Phonetik-Datensatz selbst oder einem damit verbundenen Datensatz, so dass der Bezug der Metadaten zu der Position in der Phonemkette einfach und ohne große Prozessorleistung zuordenbar ist.
Dazu kann beispielsweise vorgesehen werden, dass die Metadaten einen Zeiger auf die Position in der Phonemkette aufweisen, die jeweils dem durch die Metadaten gekennzeichneten Datensatzteil entspricht. Dies kann entweder durch eine Kennzeichnung des Speicherorts des Phonems erfolgen, das den Beginn des gekennzeichneten Datensatzteils anzeigt. Dies ermöglicht einen besonders einfachen Zugriff.
Gemäß einer besonders bevorzugten Ausführungsform des vorgeschlagenen Verfahrens können die Metadaten zusätzlich eine Kennung für die auf die jeweiligen Metadaten bezogenen Datensatzteile aufweisen, so dass durch die Kennung die Datensatzteile identifizierbar sind, auf die sich die Metadaten beziehen. Dies kann beispielsweise durch eine Verlinkung zwischen dem Datensatzteil in der Graphem-Darstellung des Datensatzes und dem entsprechenden Eintrag in den Metadaten erfolgen. Damit kann aus dem Datensatzteil des Datensatzes direkt auf die Metadaten zugegriffen werden.
In einer erfindungsgemäßen vorgeschlagenen Weiterentwicklung kann eine neue Phonemkette durch Aneinanderreihen von Zeigern in der Reihenfolge einer ausgewählten Kombination von Datensatzteilen erzeugt werden. In diesem Fall muss keine neue Phonemfolge gespeichert werden, sondern lediglich eine Folge von Zeigern, die die einzelnen Datensatzteile in ihrer neuen Wortfolge zusammensetzt. Dies ist durch die Verwendung von Metadaten, die insbesondere als Zeiger ausgebildet sind, besonders einfach möglich. Die einzelnen Bereiche in der Phonemkette werden dann jeweils durch einen Zeiger bzw. Pointer angesprochen, um die dem jeweiligen Datensatzteil entsprechende Phonemkette auszuwählen.
Sobald der dem Datensatzteil entsprechende Bereich aus der Phonemkette abgearbeitet ist, springt der die Metadaten darstellende Zeiger auf den nächsten Datensatzteil. Dies reduziert den Speicherbedarf, wenn verschiedene Sortierungen der Phonemkette im Rahmen der sprachgesteuerten Benutzerschnittstelle zur Identifikation des Sprachbefehls verglichen werden müssen. Außerdem lässt sich die Reihenfolge der Zeiger in einer neuen Zeigerdatei so schnell speichern, dass der Benutzer bei einer Phonetisierung der textenthaltenden Datensätze keine Latenz mehr feststellt.
Gemäß einer erfindungsgemäß vorgeschlagenen Variante können die Grapheme in einer Präprozessierung für das Phonetisieren aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert aufbereitet werden. Dabei können u.a. Akronyme für eine Phonetisierung vorbereitet und Sprachen der Datensatzteile erkannt werden, um die Phonetisierung in der gewünschten Sprache durchzuführen.
Es ist besonders bevorzugt, die soeben angesprochene Präprozessierung der Grapheme, die Graphem-zu-Phonem-Konvertierung und die Phonetik-Nachbearbeitung zur Ermittlung der Metadaten, wie sie erfindungsgemäß nun vorgesehen ist, parallel für verschiedene Datensätze vorzunehmen. Durch diese parallele Prozessierung können mehrere Datensätze parallel verarbeitet werden, so dass die Bearbeitungszeit für die Phonetisierung einschließlich der Aufbereitung der phonetisierten Datensätze mittels Metadaten schnell erfolgen kann.
Die Erfindung bezieht sich auch auf eine sprachgesteuerte Benutzerschnittstelle mit einer Spracherkennung, einer Datenschnittstelle zum Anbinden an textenthaltende Datensätze und eine Recheneinheit zur Steuerung der Benutzerschnittstelle, wobei die Recheneinheit zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon eingerichtet ist.
Die Erfindung betrifft auch ein Computerprogrammprodukt mit Programmcodemitteln für die Einrichtung einer Recheneinheit einer sprachgesteuerten Benutzerschnittstelle zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon, wenn die Programmcodemittel von einem Prozessor der Recheneinheit ausgeführt werden.
Weitere Vorteile, Merkmale oder Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich auch aus der nachfolgenden Beschreibung eines Ausführungsbeispiels und der Zeichnung. Dabei bilden alle beschriebenen und/oder bildlich dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der vorliegenden Erfindung auch unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbezügen.
Die einzige 1 zeigt schematisch eine Ausführungsform der vorgeschlagenen Einrichtung mit dem Ablauf des Verfahrens zum Phonetisieren textenthaltender Datensätze mit mehreren Wortbestandteilen.
Danach ist eine sprachgesteuerte Benutzerschnittstelle mit einer Einrichtung zum Phonetisieren oder eine Einreichung zum Phonetisieren 1 vorgesehen, die zur Phonetisierung der textenthaltenden Datensätze 2 eingerichtet ist. Diese textenthaltenden Datensätze 2 erhält die sprachgesteuerte Benutzerschnittstelle respektive die Einrichtung zum Phonetisieren 1 über eine Datenschnittstelle 3, über die die Datensätze 2 in die sprachgesteuerte Benutzerschnittstelle bzw. Einrichtung 1 eingelesen werden können. Die Datensätze 2 liegen als Grapheme vor und werden in einer in der Benutzerschnittstelle 1 vorgesehenen Recheneinrichtung 4 in Phoneme konvertiert.
Dieser Aspekt der Recheneinrichtung 4 ist in 1 der Deutlichkeit halber neben der sprachgesteuerten Benutzerschnittstelle bzw. Einrichtung 1 dargestellt, obwohl diese Recheneinheit 4 Teil der Benutzerschnittstelle bzw. allgemeiner der Einrichtung 1 zur Phonetisierung von Datensätzen 2 ist.
Diese Recheneinrichtung 4 weist eine erste Recheneinheit 5, eine zweite Recheneinheit 6 und eine dritte Recheneinheit 7 auf, die erfindungsgemäß zur parallelen, voneinander unabhängigen Abarbeitung von Daten und Abläufen geeignet sind.
Es wird darauf hingewiesen, dass die in 1 dargestellte Recheneinrichtung 4 nur die nachfolgend noch genauer zu beschreibenden Funktionen der erfindungsgemäßen Lösung wiedergibt und nicht sämtliche, auf der Recheneinrichtung 4 bzw. in den Recheneinheiten 5, 6, 7 der Recheneinrichtung 4 ablaufenden Prozesse und Verfahren.
Die erste Recheneinheit 5 ist zur Präprozessierung der Grapheme, die zweite Recheneinheit 6 zur Konvertierung der Grapheme in Phoneme und die dritte Recheneinheit 7 zur Phonetik-Nachbearbeitung bzw. -Postprozessierung eingerichtet. Die zweite Recheneinheit 6 zur Konvertierung kann vorzugsweise auch einen Spracherkenner aufweisen, der durch eine sprachgesteuerte Benutzerschnittstelle verwendet wird und auf die gespeicherte Phonemkette 9 (phonetisierter Datensatz) zugreift.
Das erfindungsgemäß vorgeschlagene Verfahren zur Phonetisierung läuft gemäß einer bevorzugten Ausführungsform wie nachfolgend beschrieben ab:
Nach dem Einlesen der textenthaltenden Datensätze 2 über die Datenschnittstelle 3 in die Einrichtung zum Phonetisieren 1 (bzw. die sprachgesteuerte Benutzerschnittstelle) werden die Grapheme, d. h. die Folge der einzelnen Graphem-Symbole, optional zunächst in Graphem-Teilfolgen einer vorgegebenen Länge von beispielsweise 50 Graphem-Symbolen bzw. -Einheiten zerlegt. Dies ist durch den Pfeil 8 dargestellt, der in 1 außerhalb der Recheneinrichtung 4 dargestellt ist, obwohl auch der Prozess der Zerlegung 8 in einer (ggf. auch zusätzlichen) Recheneinheit 5, 6, 7 der Recheneinrichtung 4 stattfindet und beispielsweise als erster Prozessschritt einer Präprozessierung aufgefasst werden kann.
Anschließend wird die Graphem-Teilfolge der ersten Recheneinheit 5 zugeleitet, welche die Präprozessierung der Grapheme übernimmt. Dabei können die Grapheme jeder Graphem-Teilfolge sprachdefiniert und/oder benutzerdefiniert modifiziert werden, beispielsweise durch Ersetzen von Abkürzungen, Erkennen fremdsprachlicher Texte, Weglassen von Präfixen, Expandieren von Akronymen, Anbieten von Sprachvarianten, die durch den Benutzer auswählbar sind, und/oder dergleichen.
Die in der ersten Recheneinheit 5 implementierte Präprozessierung umfasst vorzugsweise einen grammatikbasierten Parser, welcher Regeln für die Textmodifikation und/oder Aussprachevarianten umfasst, wobei ggf. unterschiedliche Sprachen berücksichtigt werden können. Außerdem werden in der in der ersten Recheneinheit 5 implementierten Präprozessierung von durch das akustische Modell von Graphem-zu-Phonem-Konvertierung nicht unterstütze Zeichen in durch das akustische Modell unterstützte Graphem-Symbole konvertiert.
Nach der Präprozessierung in der ersten Recheneinheit 5 wird die (präprozessierte) Graphem-Teilfolge der zweiten Recheneinheit 6 zugeführt, in welcher die eigentliche Graphem-zu-Phonem-Konvertierung stattfindet. Dieses Verfahren ist allgemein bekannt und muss daher an dieser Stelle nicht näher beschrieben werden.
Als Ergebnis der Graphem-zu-Phonem-Konvertierung liegt in der zweiten Recheneinheit 6 eine Phonemkette 9 im Sinne eines phonetisierten Datensatzes vor, der dem gesamten textenthaltenden Datensatz 2 entspricht. Gegebenenfalls werden hierfür Graphem-Teilfolgen, die in der Zerlegung 8 erzeugt wurden, wieder zusammengeführt. Im Ergebnis ist also der gesamte Datensatz 2 mit den mehreren Datensatzteilen in eine zusammenhängende Phonemkette 9 konvertiert.
Diese zusammenhängende Phonemkette 9 wird dann der dritten Recheneinheit 7 zugeleitet, in welcher eine Phonetik-Postprozessierung bzw. -Nachbearbeitung stattfindet. Ziel dieser Nachbearbeitung ist es, Metadaten zu ermitteln, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem- Konvertierung gebildeten zusammenhängenden Phonemkette 9 befinden.
Dazu werden die einzelnen Phoneme der Phonemkette untersucht. Hierbei ist es z. B. möglich, durch die zwischen einzelnen Worten der Graphem-Darstellung eingefügten Phonem-Pausen unabhängige Wörter (Datensatzteile) zu identifizieren.
Nach der Erkennung der unabhängigen Worte werden diese bestimmten Regeln folgend, die sich aus der Gesamtzahl der Worte sowie der Zahl der Worte in Teilelementen des Datensatzes ergeben können, neu zusammengefügt und als Alternativen in der Phonemliste gespeichert. Konkret am Beispiel von Kontaktdaten werden z. B. Vor-, Mittel- und Nachname in allen Reihenfolgenpermutationen erzeugt, ohne dass dafür eine weitere Graphem-zu-Phonem-Konvertierung (6) verwendet werden muss. Durch diese effiziente Erzeugung der Varianten lässt sich die textbasierte Liste schneller verwenden, als wenn diese Kombinationen bereits auf Graphembasis erzeugt wurden. Grund für die Reduktion an Latenzzeit ist der Verzicht auf die Phonetisierung der Varianten für einen Datensatz, der in Recheneinheit 6 erfolgt.
Eine andere Möglichkeit zur Phonemkette-Nachbearbeitung liegt darin, dass zu erkennende Wortanfänge in dem textenthaltenden Datensatz erneut und temporär in Phoneme, vorzugsweise eine Folge von ein bis drei Phonemen, konvertiert werden, und diese Phoneme bzw. Phonemfolge in der Phonemkette 9 gesucht werden. Sobald eine Folge übereinstimmt, wird als Metadaten ein Zeiger auf den Speicherort dieser Phonemfolge in der Phonemkette 9 gelegt, beispielsweise durch Identifizierung des Speicherplatzes.
Die vorbeschriebenen Maßnahmen stellen besonders bevorzugte Möglichkeiten zur Phonetik-Nachbearbeitung gemäß der Erfindung dar, ohne dass die Erfindung jedoch auf diese konkreten Möglichkeiten beschränkt wäre.
Die Metadaten werden zusammen mit der Phonemkette 9 in einem geeigneten Speicher gespeichert, so dass eine sprachgesteuerte Benutzerschnittstelle auf diese mit Metadaten versehene Phonemkette zugreifen kann, um aus dem Text enthaltenden Datensätze abgeleitete Sprachbefehle zu identifizieren, auch wenn die Datensatzteile der Text enthaltenden Datensätze in den Sprachbefehlen vertauscht wurden.
Durch das parallele Prozessieren der Präprozessierung, der Konvertierung und der Postprozessierung der Datensätze wird eine zeitökonomische Bearbeitung der Graphem-zu-Phonem-Konvertierung ohne Übergebühr große Latenzzeiten erreicht, wobei gleichzeitig eine einfache Such- und Sortiermöglichkeit der phonetisierten Datensätze 9 erhalten bleibt.
Bezugszeichenliste

1: sprachgesteuerte Benutzerschnittstelle, Einrichtung zum Phonetisieren
2: textenthaltende Datensätze
3: Datenschnittstelle
4: Recheneinrichtung
5: erste Recheneinheit, Präprozessierung
6: zweite Recheneinheit, Graphem-zu-Phonem-Konvertierung
7: dritte Recheneinheit, Postprozessierung mit Phonetik-Nachbearbeitung
8: Zerlegung in Graphem-Teilfolgen
9: phonetisierter Datensatz, Phonemkette

Claims

Verfahren zum Phonetisieren von textenthaltenden Datensätzen (2) mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als Phonemkette (9) abgespeichert werden, wobei eine in Textform vorliegende Datenliste als textenthaltender gesamter Datensatz (2) mit den mehreren Datensatzteilen in einer Graphem-zu-PhonemKonvertierung in eine zusammenhängende Phonemkette (9) konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten zusammenhängenden Phonemkette befinden dadurch gekennzeichnet, dass die Metadaten genutzt werden, um mindestens eine neue Phonemkette (9) mit anderer Sortierung der Datensatzteile zu erzeugen.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Metadaten zusammen mit der Phonemkette (9) abgespeichert werden.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Metadaten einen Zeiger auf die Position in der Phonemkette (9) aufweisen, die dem durch die Metadaten gekennzeichneten Datensatzteil entspricht.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Metadaten eine Kennung für die auf die jeweiligen Metadaten bezogenen Datensatzteile aufweisen.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die neue Phonemkette (9) durch Aneinanderreihen von Zeigern in der Reihenfolge einer ausgewählten Kombination von Datensatzteilen erzeugt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Grapheme in einer Präprozessierung für das Phonetisieren aufbereitet werden.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Präprozessierung der Grapheme, die Graphem-zu-Phonem- Konvertierung und die Phonetik-Nachbearbeitung zur Ermittlung der Metadaten parallel für verschiedenene textenthaltende Datensätze (2) erfolgen.
Sprachgesteuerte Benutzerschnittstelle mit einer Spracherkennung, einer Datenschnittstelle (3) zum Anbinden von textenthaltenden Datensätzen und einer Recheneinheit (4) zur Steuerung der Benutzerschnittstelle (1), dadurch gekennzeichnet, dass die Recheneinheit zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7 eingerichtet ist.
Computerprogrammprodukt mit Programmcodemitteln, das eine sprachgesteuerte Benutzerschnittstelle (1) veranlasst, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen, wenn das Programm auf einer Recheneinheit der sprachgesteuerten Benutzerschnittstelle (1) ausgeführt wird.