DE102013219828B4 - Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle - Google Patents

Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle Download PDF

Info

Publication number
DE102013219828B4
DE102013219828B4 DE102013219828.0A DE102013219828A DE102013219828B4 DE 102013219828 B4 DE102013219828 B4 DE 102013219828B4 DE 102013219828 A DE102013219828 A DE 102013219828A DE 102013219828 B4 DE102013219828 B4 DE 102013219828B4
Authority
DE
Germany
Prior art keywords
phoneme
metadata
data
text
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102013219828.0A
Other languages
English (en)
Other versions
DE102013219828A1 (de
Inventor
Jens Walther
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive GmbH
Original Assignee
Continental Automotive GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive GmbH filed Critical Continental Automotive GmbH
Priority to DE102013219828.0A priority Critical patent/DE102013219828B4/de
Priority to PCT/EP2014/066498 priority patent/WO2015043802A1/de
Publication of DE102013219828A1 publication Critical patent/DE102013219828A1/de
Application granted granted Critical
Publication of DE102013219828B4 publication Critical patent/DE102013219828B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Verfahren zum Phonetisieren von textenthaltenden Datensätzen (2) mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als Phonemkette (9) abgespeichert werden, wobei eine in Textform vorliegende Datenliste als textenthaltender gesamter Datensatz (2) mit den mehreren Datensatzteilen in einer Graphem-zu-PhonemKonvertierung in eine zusammenhängende Phonemkette (9) konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten zusammenhängenden Phonemkette befinden dadurch gekennzeichnet, dass die Metadaten genutzt werden, um mindestens eine neue Phonemkette (9) mit anderer Sortierung der Datensatzteile zu erzeugen.

Description

  • Die Erfindung betrifft ein Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze in Phoneme konvertiert und als Phonemkette, teilweise auch als Phonemkette bezeichnet, abgespeichert werden. Bei den Datensatzteilen handelt es sich typischer Weise um Worte.
  • Für sprachgesteuerte Benutzerschnittstellen ist es notwendig, meist in Datenbanken vorliegende Datensätze, beispielsweise in Form von Textlisten, zu phonetisieren, um den Inhalt der Datensätze einer Sprachsteuerung zuzuführen, bei der ein Benutzer durch Sprechen der Inhalte der Datensätze in der Benutzerschnittstelle den Datensatz auswählen und eine definierte Aktion auslösen kann.
  • Ein typisches Anwendungsfeld, auf welches sich die Erfindung auch bevorzugt bezieht, ist die Verwendung einer sprachgesteuerten Benutzerschnittstelle in einer Multimedia-Einheit eines Kraftfahrzeugs, die als sprachgesteuerte Benutzerschnittstelle insbesondere u. a. ein Autotelefon und/oder eine Freisprecheinrichtung eines Kraftfahrzeugs aufweisen kann, so dass der Fahrer des Kraftfahrzeugs durch Angabe eines Kontaktnamens des Telefons die sprachgesteuerte Benutzerschnittstelle für das Aufbauen und Führen eines Telefonats nutzen kann. Natürlich kann die Sprachsteuerung auch zur Steuerung weiterer Funktionen der Multimedia-Einheit genutzt werden, beispielsweise durch Auswahl von Musiktitel, Interpret oder Album zur Wiedergabe durch die Multimediaeinheit.
  • Grundsätzlich lässt sich die Erfindung bevorzugt bei sprachgesteuerten Schnittstellen nutzen, bei denen textbasierte Dateneinträge umsortierbar sind. Auch wenn die vorbeschriebenen Anwendungen einen bevorzugten Anwendungsfall der Erfindung darstellt, ist diese jedoch nicht auf genau diese Funktion beschränkt, sondern auch allgemein für sprachgesteuerte Benutzerschnittstellen anwendbar, in denen eine in Textform vorliegende Datenliste (Textliste) als textenthaltender Datensatz zur Erkennung durch die Sprachsteuerung phonetisiert werden soll, wobei jeder Listeneintrag der Textliste vorzugsweise mindestens zwei Datensatzteile aufweist.
  • Bei dem erfindungsgemäß vorgeschlagenen Verfahren werden die als Grapheme, d. h. als Folge von einzelnen Graphem-Symbolen, insbesondere als Buchstabenfolge oder standardisierte Buchstabenfolge, vorliegenden Datensätze in Phoneme, d. h. eine Folge einzelner Phonem-Symbole, konvertiert und als Phonemkette, also phonetisierte Datensätze beispielsweise in einer phonetisierten Datenliste, gespeichert.
  • Entsprechend der üblichen Definition ist ein Phonem eine Lautdarstellung, die in einer Sprache die kleinste bedeutungsunterscheidende Einheit bildet, d. h. eine distinktive Funktion aufweist. Der Begriff „Phoneme“ wird in dem vorliegenden Text insbesondere als Folge mehrerer einzelner Phonem-Symbole verstanden. Entsprechendes gilt für den Begriff Grapheme, der in dem vorliegenden Text insbesondere als Folge einzelner Graphem-Symbole verstanden wird. Ähnlich einem Phonem stellt ein Graphem (Graphem-Symbol) die in der grafischen Darstellung eines Textes kleinste bedeutungsunterscheidende Einheit dar, und ist häufig durch die Buchstaben einer Schrift definiert.
  • Wie es bei derartigen sprachgesteuerten Benutzerschnittstellen bereits üblich ist, sollen Listeneinträge der Datensätze der sprachgesteuerten Benutzerschnittstelle für die Spracherkennung zur Verfügung gestellt werden, um bestimmte Listeneinträge aus gesprochenen Befehlen des Benutzers identifizieren zu können. Bei einem dazu notwendigen Verfahren zum Phonetisieren der Datensätze wird ein als Grapheme, d. h. eine Folge einzelner Graphem-Symbole bzw. Textzeichen, welche in beispielsweise der Buchstabendarstellung oder einer standardisierten Buchstabenstellung entsprechen können, vorliegender Datensatz in Phoneme konvertiert und als Phonemkette, d. h. eine Folge einzelner Phonem-Symbole, abgespeichert.
  • Diese als Phoneme, d. h. als Folge einzelner Phonem-Symbole bzw. Phonemkette, vorliegenden phonetisierten Datensätze können bei der Spracherkennung in der sprachgesteuerten Benutzerschnittstelle dazu verwendet werden, das durch den Benutzer gesprochene Wort mit einem textenthaltenden Listeneintrag aus dem Datensatz in Verbindung zu bringen und so die entsprechend vorgegebenen Funktionen auszuführen. Üblicherweise werden in dieser phonetisierten Datenliste Phoneme als zusammenhängende Phonemkette gespeichert und insbesondere der Spracherkennung bzw. deren Spracherkenner in der sprachgesteuerten Benutzerschnittstelle zur Verfügung gestellt, so dass diese einfach auf die phonetisierte Datenliste zugreifen kann.
  • Die Datenlisten bzw. -sätze können aus mehreren Worten bzw. Datensatzteilen bestehen, Akronyme enthalten und sind mitunter auch multilingual. Um eine möglichst einfache, natürliche Eingabe von beispielsweise Telefonbuchkontakten zu ermöglichen, werden der Spracherkennung viele mögliche Kombinationen aus Vor-, Nachnamen sowie Teilelemente (Mittelname) derselben angeboten, d. h. allgemein verschiedene Kombinationen der verschiedenen Datensatzteile. Weiterhin gibt es Anforderungen, wie die Expansion von Titeln (Dr.) und Verkettung von häufigen Teilworten (z. B. „de la“ im mexikanischen Spanisch) .
  • Die Bereitstellung vieler Kombinationen von Vor- und Nachnamen sowie deren Unterelementen, d. h. allgemein vieler Kombinationen von Datensatzteilen, kann beispielsweise in einer in der sprachgesteuerten Benutzerschnittstelle vorhandenen Spracherkennung bzw. dem Spracherkenner erfolgen.
  • Bei den bisherigen Systemen wurde das Neuerstellen der Phonemketteen bzw. der sprachgesteuerten Datenliste durch eine Neuphonetisierung der umgestellten Datensätze realisiert. Um eine Teildatensatzerkennung zu realisieren, werden Teilworte aus den Datensätzen bzw. Datenlisten nach bestimmten Regeln ermittelt und neu kombiniert. So werden beispielsweise bei Kontaktdaten bestehend aus Vorname, Mittelname und Nachname alle Permutationen erstellt. So entstehen fünf Textvarianten.
  • Bei einer noch größeren Anzahl von Datensatzteilen steigt die Anzahl der Textvarianten exponentiell. Zusätzlich müssen noch Duplikate ermittelt und bestimmte Akronyme (wie beispielsweise „Dr.“) expandiert werden.
  • Bei bisher bekannten Lösungen wird die so erzeugte Vielzahl von Textvarianten anschließend mit einer Graphem-zu-Phonem-Konvertierung in verschiedene Phonemketten umgewandelt. So werden mehrere Varianten von phonetisierten Datensätzen erzeugt und beispielsweise in die sprachgesteuerte Benutzerschnittstelle zur Spracherkennung eingefügt. Die Prozessorlast und der Speicherbedarf für diesen Prozess sind erheblich. Da die Phonetisierung sehr rechen- und damit ressourcenaufwendig ist, kommt es bei der Neuphonetisierung einer größeren Datenliste und deren Varianten für den Benutzer zu einer spürbaren Latenz bzw. Wartezeit, bis die sprachgesteuerte Benutzerschnittstelle zur Erkennung von Namen aus der Datenliste bzw. allgemeiner von Listeneinträgen verwendet werden kann.
  • Ein ähnliches Verfahren ist aus der EP 1 798 723 A1 bekannt, bei der einem auswählbaren Listeneintrag (in dem Beispiel einem Radiosender) mehrere Phonemketten (Sprachmuster) zugeordnet werden. Es wird zudem auf die WO 97/ 34 291 A1 hingewiesen.
  • Dies ist insbesondere deshalb nachteilig, weil ein Benutzer daran gewöhnt ist, die in mobilen Datengeräten mit Datenbankfunktion, beispielsweise Mobiltelefonen mit einer Kontaktdatenbank, gespeicherten Daten direkt nach Start des Infotainment-Systems bzw. Verbindung der Freisprecheinrichtung zur Verfügung stehen. Die Phonetisierung vieler verschiedenere Textvarianten erfordert jedoch eine zu große Rechenzeit.
  • Zur Vermeidung dieser Problematik wurde bereits vorgeschlagen, dass in dem Text eines Listeneintrags, beispielsweise zwischen Vor- und Nachnamen, ein Trennzeichen zwischen den jeweiligen Datenfeldern des Listeneintrags eingefügt, mit in die Phonemkette konvertiert und dort als Phonem-Symbol (einzelnes Phonem) in der den phonetisierten Datensatz bildenden Phonemkette abgespeichert wird. Bei dem Erzeugen des phonetisierten Datensatzes in der Spracherkennung bleibt das das Trennzeichen in dem Text des Listeneintrags symbolisierende Phonem-Symbol dagegen unberücksichtigt, d. h. es wird nicht in die Phoneme eines Listeneintrags integriert. Hierdurch wird vermieden, dass das das Trennzeichen symbolisierende Phonem-Symbol mit gesprochen werden muss, damit der gesprochene Text erkannt werden kann.
  • Auch dies ist jedoch umständlich, da in dem System Phoneme identifiziert werden müssen, die für eine Spracherkennung unberücksichtigt bleiben. Dies führt auch dazu, dass sich die erzeugte Phonemkette nicht universell zur Spracherkennung in beliebigen Geräten nutzen lässt, weil in Geräten die Phonem-Symbole, welche bei der Spracherkennung unberücksichtigt bleiben sollen, nicht unbedingt kennen und diese Phoneme in den Befehlen so mit gesprochen werden müssten. Außerdem müssen die Grapheme zuvor durch Ergänzung von speziellen Zeichen verändert werden, um eine Art Indexierung zu erzeugen.
  • Aufgabe der Erfindung ist es, eine einfachere und insgesamt wenig Latenzzeit erfordernde Möglichkeit vorzuschlagen, mit der textenthaltende Datensätze insbesondere für eine sprachgesteuerte Benutzerschnittstelle phonetisiert werden können und bei der einzelne Datensatzteile in der Phonemkette umgestellt werden können.
  • Diese Aufgabe wird erfindungsgemäß mit den Merkmalen des Anspruchs 1 gelöst.
  • Dazu ist bei einem Verfahren der eingangs genannten Art insbesondere vorgesehen, dass jeweils ein gesamter Datensatz mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-Konvertierung eine zusammenhängend Phonemkette konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung, insbesondere durch einen Phonetik-Postprozessor, Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten, zusammenhängenden Phonemkette befinden. Dadurch wird nur einmal für den vollständigen Datensatz eine Graphem-zu-Phonem-Konvertierung durchgeführt. Dies ist anders als im Stand der Technik nicht für jeden Teildatensatz, d. h. die einzelnen Datensatzteile des textenthaltenden Datensatzes, und deren Kombinationen notwendig. Vielmehr liegt sofort eine vollständige Phonemkette zu dem als Graphem gespeicherten Datensatz vor, die unmittelbar in einer Spracherkennung verwendet werden kann. Für je nach Datensatz speziell ausgewählte Kriterien, beispielsweise Pausen zwischen den einzelnen Datenworten oder der Erkennung von Textelementen oder Zahlen oder dergleichen, werden dann aus der Phonemkette Metadaten ermittelt, die die Position der einzelnen ermittelten Datensatzteile in der zusammenhängenden Phonemkette anzeigt. Dies erlaubt einen gezielten Zugriff auf bestimmte Positionen in der Phonemkette, so dass es nicht notwendig ist, verschiedene Sortierungen der einzelnen Datensatzteile in jeweils eigenständige Phonemketten zu wandeln oder in der Phonemkette selbst als Phonem gespeicherte Ordnungskennzeichen vorzusehen, die von den Geräten entsprechend erkannt und verarbeitet werden müssen.
  • Gemäß einer bevorzugten Ausführungsform können die Metadaten zusammen mit der Phonemkette abgespeichert werden, d. h. insbesondere in dem Phonetik-Datensatz selbst oder einem damit verbundenen Datensatz, so dass der Bezug der Metadaten zu der Position in der Phonemkette einfach und ohne große Prozessorleistung zuordenbar ist.
  • Dazu kann beispielsweise vorgesehen werden, dass die Metadaten einen Zeiger auf die Position in der Phonemkette aufweisen, die jeweils dem durch die Metadaten gekennzeichneten Datensatzteil entspricht. Dies kann entweder durch eine Kennzeichnung des Speicherorts des Phonems erfolgen, das den Beginn des gekennzeichneten Datensatzteils anzeigt. Dies ermöglicht einen besonders einfachen Zugriff.
  • Gemäß einer besonders bevorzugten Ausführungsform des vorgeschlagenen Verfahrens können die Metadaten zusätzlich eine Kennung für die auf die jeweiligen Metadaten bezogenen Datensatzteile aufweisen, so dass durch die Kennung die Datensatzteile identifizierbar sind, auf die sich die Metadaten beziehen. Dies kann beispielsweise durch eine Verlinkung zwischen dem Datensatzteil in der Graphem-Darstellung des Datensatzes und dem entsprechenden Eintrag in den Metadaten erfolgen. Damit kann aus dem Datensatzteil des Datensatzes direkt auf die Metadaten zugegriffen werden.
  • In einer erfindungsgemäßen vorgeschlagenen Weiterentwicklung kann eine neue Phonemkette durch Aneinanderreihen von Zeigern in der Reihenfolge einer ausgewählten Kombination von Datensatzteilen erzeugt werden. In diesem Fall muss keine neue Phonemfolge gespeichert werden, sondern lediglich eine Folge von Zeigern, die die einzelnen Datensatzteile in ihrer neuen Wortfolge zusammensetzt. Dies ist durch die Verwendung von Metadaten, die insbesondere als Zeiger ausgebildet sind, besonders einfach möglich. Die einzelnen Bereiche in der Phonemkette werden dann jeweils durch einen Zeiger bzw. Pointer angesprochen, um die dem jeweiligen Datensatzteil entsprechende Phonemkette auszuwählen.
  • Sobald der dem Datensatzteil entsprechende Bereich aus der Phonemkette abgearbeitet ist, springt der die Metadaten darstellende Zeiger auf den nächsten Datensatzteil. Dies reduziert den Speicherbedarf, wenn verschiedene Sortierungen der Phonemkette im Rahmen der sprachgesteuerten Benutzerschnittstelle zur Identifikation des Sprachbefehls verglichen werden müssen. Außerdem lässt sich die Reihenfolge der Zeiger in einer neuen Zeigerdatei so schnell speichern, dass der Benutzer bei einer Phonetisierung der textenthaltenden Datensätze keine Latenz mehr feststellt.
  • Gemäß einer erfindungsgemäß vorgeschlagenen Variante können die Grapheme in einer Präprozessierung für das Phonetisieren aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert aufbereitet werden. Dabei können u.a. Akronyme für eine Phonetisierung vorbereitet und Sprachen der Datensatzteile erkannt werden, um die Phonetisierung in der gewünschten Sprache durchzuführen.
  • Es ist besonders bevorzugt, die soeben angesprochene Präprozessierung der Grapheme, die Graphem-zu-Phonem-Konvertierung und die Phonetik-Nachbearbeitung zur Ermittlung der Metadaten, wie sie erfindungsgemäß nun vorgesehen ist, parallel für verschiedene Datensätze vorzunehmen. Durch diese parallele Prozessierung können mehrere Datensätze parallel verarbeitet werden, so dass die Bearbeitungszeit für die Phonetisierung einschließlich der Aufbereitung der phonetisierten Datensätze mittels Metadaten schnell erfolgen kann.
  • Die Erfindung bezieht sich auch auf eine sprachgesteuerte Benutzerschnittstelle mit einer Spracherkennung, einer Datenschnittstelle zum Anbinden an textenthaltende Datensätze und eine Recheneinheit zur Steuerung der Benutzerschnittstelle, wobei die Recheneinheit zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon eingerichtet ist.
  • Die Erfindung betrifft auch ein Computerprogrammprodukt mit Programmcodemitteln für die Einrichtung einer Recheneinheit einer sprachgesteuerten Benutzerschnittstelle zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon, wenn die Programmcodemittel von einem Prozessor der Recheneinheit ausgeführt werden.
  • Weitere Vorteile, Merkmale oder Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich auch aus der nachfolgenden Beschreibung eines Ausführungsbeispiels und der Zeichnung. Dabei bilden alle beschriebenen und/oder bildlich dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der vorliegenden Erfindung auch unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbezügen.
  • Die einzige 1 zeigt schematisch eine Ausführungsform der vorgeschlagenen Einrichtung mit dem Ablauf des Verfahrens zum Phonetisieren textenthaltender Datensätze mit mehreren Wortbestandteilen.
  • Danach ist eine sprachgesteuerte Benutzerschnittstelle mit einer Einrichtung zum Phonetisieren oder eine Einreichung zum Phonetisieren 1 vorgesehen, die zur Phonetisierung der textenthaltenden Datensätze 2 eingerichtet ist. Diese textenthaltenden Datensätze 2 erhält die sprachgesteuerte Benutzerschnittstelle respektive die Einrichtung zum Phonetisieren 1 über eine Datenschnittstelle 3, über die die Datensätze 2 in die sprachgesteuerte Benutzerschnittstelle bzw. Einrichtung 1 eingelesen werden können. Die Datensätze 2 liegen als Grapheme vor und werden in einer in der Benutzerschnittstelle 1 vorgesehenen Recheneinrichtung 4 in Phoneme konvertiert.
  • Dieser Aspekt der Recheneinrichtung 4 ist in 1 der Deutlichkeit halber neben der sprachgesteuerten Benutzerschnittstelle bzw. Einrichtung 1 dargestellt, obwohl diese Recheneinheit 4 Teil der Benutzerschnittstelle bzw. allgemeiner der Einrichtung 1 zur Phonetisierung von Datensätzen 2 ist.
  • Diese Recheneinrichtung 4 weist eine erste Recheneinheit 5, eine zweite Recheneinheit 6 und eine dritte Recheneinheit 7 auf, die erfindungsgemäß zur parallelen, voneinander unabhängigen Abarbeitung von Daten und Abläufen geeignet sind.
  • Es wird darauf hingewiesen, dass die in 1 dargestellte Recheneinrichtung 4 nur die nachfolgend noch genauer zu beschreibenden Funktionen der erfindungsgemäßen Lösung wiedergibt und nicht sämtliche, auf der Recheneinrichtung 4 bzw. in den Recheneinheiten 5, 6, 7 der Recheneinrichtung 4 ablaufenden Prozesse und Verfahren.
  • Die erste Recheneinheit 5 ist zur Präprozessierung der Grapheme, die zweite Recheneinheit 6 zur Konvertierung der Grapheme in Phoneme und die dritte Recheneinheit 7 zur Phonetik-Nachbearbeitung bzw. -Postprozessierung eingerichtet. Die zweite Recheneinheit 6 zur Konvertierung kann vorzugsweise auch einen Spracherkenner aufweisen, der durch eine sprachgesteuerte Benutzerschnittstelle verwendet wird und auf die gespeicherte Phonemkette 9 (phonetisierter Datensatz) zugreift.
  • Das erfindungsgemäß vorgeschlagene Verfahren zur Phonetisierung läuft gemäß einer bevorzugten Ausführungsform wie nachfolgend beschrieben ab:
  • Nach dem Einlesen der textenthaltenden Datensätze 2 über die Datenschnittstelle 3 in die Einrichtung zum Phonetisieren 1 (bzw. die sprachgesteuerte Benutzerschnittstelle) werden die Grapheme, d. h. die Folge der einzelnen Graphem-Symbole, optional zunächst in Graphem-Teilfolgen einer vorgegebenen Länge von beispielsweise 50 Graphem-Symbolen bzw. -Einheiten zerlegt. Dies ist durch den Pfeil 8 dargestellt, der in 1 außerhalb der Recheneinrichtung 4 dargestellt ist, obwohl auch der Prozess der Zerlegung 8 in einer (ggf. auch zusätzlichen) Recheneinheit 5, 6, 7 der Recheneinrichtung 4 stattfindet und beispielsweise als erster Prozessschritt einer Präprozessierung aufgefasst werden kann.
  • Anschließend wird die Graphem-Teilfolge der ersten Recheneinheit 5 zugeleitet, welche die Präprozessierung der Grapheme übernimmt. Dabei können die Grapheme jeder Graphem-Teilfolge sprachdefiniert und/oder benutzerdefiniert modifiziert werden, beispielsweise durch Ersetzen von Abkürzungen, Erkennen fremdsprachlicher Texte, Weglassen von Präfixen, Expandieren von Akronymen, Anbieten von Sprachvarianten, die durch den Benutzer auswählbar sind, und/oder dergleichen.
  • Die in der ersten Recheneinheit 5 implementierte Präprozessierung umfasst vorzugsweise einen grammatikbasierten Parser, welcher Regeln für die Textmodifikation und/oder Aussprachevarianten umfasst, wobei ggf. unterschiedliche Sprachen berücksichtigt werden können. Außerdem werden in der in der ersten Recheneinheit 5 implementierten Präprozessierung von durch das akustische Modell von Graphem-zu-Phonem-Konvertierung nicht unterstütze Zeichen in durch das akustische Modell unterstützte Graphem-Symbole konvertiert.
  • Nach der Präprozessierung in der ersten Recheneinheit 5 wird die (präprozessierte) Graphem-Teilfolge der zweiten Recheneinheit 6 zugeführt, in welcher die eigentliche Graphem-zu-Phonem-Konvertierung stattfindet. Dieses Verfahren ist allgemein bekannt und muss daher an dieser Stelle nicht näher beschrieben werden.
  • Als Ergebnis der Graphem-zu-Phonem-Konvertierung liegt in der zweiten Recheneinheit 6 eine Phonemkette 9 im Sinne eines phonetisierten Datensatzes vor, der dem gesamten textenthaltenden Datensatz 2 entspricht. Gegebenenfalls werden hierfür Graphem-Teilfolgen, die in der Zerlegung 8 erzeugt wurden, wieder zusammengeführt. Im Ergebnis ist also der gesamte Datensatz 2 mit den mehreren Datensatzteilen in eine zusammenhängende Phonemkette 9 konvertiert.
  • Diese zusammenhängende Phonemkette 9 wird dann der dritten Recheneinheit 7 zugeleitet, in welcher eine Phonetik-Postprozessierung bzw. -Nachbearbeitung stattfindet. Ziel dieser Nachbearbeitung ist es, Metadaten zu ermitteln, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem- Konvertierung gebildeten zusammenhängenden Phonemkette 9 befinden.
  • Dazu werden die einzelnen Phoneme der Phonemkette untersucht. Hierbei ist es z. B. möglich, durch die zwischen einzelnen Worten der Graphem-Darstellung eingefügten Phonem-Pausen unabhängige Wörter (Datensatzteile) zu identifizieren.
  • Nach der Erkennung der unabhängigen Worte werden diese bestimmten Regeln folgend, die sich aus der Gesamtzahl der Worte sowie der Zahl der Worte in Teilelementen des Datensatzes ergeben können, neu zusammengefügt und als Alternativen in der Phonemliste gespeichert. Konkret am Beispiel von Kontaktdaten werden z. B. Vor-, Mittel- und Nachname in allen Reihenfolgenpermutationen erzeugt, ohne dass dafür eine weitere Graphem-zu-Phonem-Konvertierung (6) verwendet werden muss. Durch diese effiziente Erzeugung der Varianten lässt sich die textbasierte Liste schneller verwenden, als wenn diese Kombinationen bereits auf Graphembasis erzeugt wurden. Grund für die Reduktion an Latenzzeit ist der Verzicht auf die Phonetisierung der Varianten für einen Datensatz, der in Recheneinheit 6 erfolgt.
  • Eine andere Möglichkeit zur Phonemkette-Nachbearbeitung liegt darin, dass zu erkennende Wortanfänge in dem textenthaltenden Datensatz erneut und temporär in Phoneme, vorzugsweise eine Folge von ein bis drei Phonemen, konvertiert werden, und diese Phoneme bzw. Phonemfolge in der Phonemkette 9 gesucht werden. Sobald eine Folge übereinstimmt, wird als Metadaten ein Zeiger auf den Speicherort dieser Phonemfolge in der Phonemkette 9 gelegt, beispielsweise durch Identifizierung des Speicherplatzes.
  • Die vorbeschriebenen Maßnahmen stellen besonders bevorzugte Möglichkeiten zur Phonetik-Nachbearbeitung gemäß der Erfindung dar, ohne dass die Erfindung jedoch auf diese konkreten Möglichkeiten beschränkt wäre.
  • Die Metadaten werden zusammen mit der Phonemkette 9 in einem geeigneten Speicher gespeichert, so dass eine sprachgesteuerte Benutzerschnittstelle auf diese mit Metadaten versehene Phonemkette zugreifen kann, um aus dem Text enthaltenden Datensätze abgeleitete Sprachbefehle zu identifizieren, auch wenn die Datensatzteile der Text enthaltenden Datensätze in den Sprachbefehlen vertauscht wurden.
  • Durch das parallele Prozessieren der Präprozessierung, der Konvertierung und der Postprozessierung der Datensätze wird eine zeitökonomische Bearbeitung der Graphem-zu-Phonem-Konvertierung ohne Übergebühr große Latenzzeiten erreicht, wobei gleichzeitig eine einfache Such- und Sortiermöglichkeit der phonetisierten Datensätze 9 erhalten bleibt.
  • Bezugszeichenliste
  • 1
    sprachgesteuerte Benutzerschnittstelle, Einrichtung zum Phonetisieren
    2
    textenthaltende Datensätze
    3
    Datenschnittstelle
    4
    Recheneinrichtung
    5
    erste Recheneinheit, Präprozessierung
    6
    zweite Recheneinheit, Graphem-zu-Phonem-Konvertierung
    7
    dritte Recheneinheit, Postprozessierung mit Phonetik-Nachbearbeitung
    8
    Zerlegung in Graphem-Teilfolgen
    9
    phonetisierter Datensatz, Phonemkette

Claims (9)

  1. Verfahren zum Phonetisieren von textenthaltenden Datensätzen (2) mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als Phonemkette (9) abgespeichert werden, wobei eine in Textform vorliegende Datenliste als textenthaltender gesamter Datensatz (2) mit den mehreren Datensatzteilen in einer Graphem-zu-PhonemKonvertierung in eine zusammenhängende Phonemkette (9) konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten zusammenhängenden Phonemkette befinden dadurch gekennzeichnet, dass die Metadaten genutzt werden, um mindestens eine neue Phonemkette (9) mit anderer Sortierung der Datensatzteile zu erzeugen.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Metadaten zusammen mit der Phonemkette (9) abgespeichert werden.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Metadaten einen Zeiger auf die Position in der Phonemkette (9) aufweisen, die dem durch die Metadaten gekennzeichneten Datensatzteil entspricht.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Metadaten eine Kennung für die auf die jeweiligen Metadaten bezogenen Datensatzteile aufweisen.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die neue Phonemkette (9) durch Aneinanderreihen von Zeigern in der Reihenfolge einer ausgewählten Kombination von Datensatzteilen erzeugt wird.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Grapheme in einer Präprozessierung für das Phonetisieren aufbereitet werden.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Präprozessierung der Grapheme, die Graphem-zu-Phonem- Konvertierung und die Phonetik-Nachbearbeitung zur Ermittlung der Metadaten parallel für verschiedenene textenthaltende Datensätze (2) erfolgen.
  8. Sprachgesteuerte Benutzerschnittstelle mit einer Spracherkennung, einer Datenschnittstelle (3) zum Anbinden von textenthaltenden Datensätzen und einer Recheneinheit (4) zur Steuerung der Benutzerschnittstelle (1), dadurch gekennzeichnet, dass die Recheneinheit zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7 eingerichtet ist.
  9. Computerprogrammprodukt mit Programmcodemitteln, das eine sprachgesteuerte Benutzerschnittstelle (1) veranlasst, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen, wenn das Programm auf einer Recheneinheit der sprachgesteuerten Benutzerschnittstelle (1) ausgeführt wird.
DE102013219828.0A 2013-09-30 2013-09-30 Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle Expired - Fee Related DE102013219828B4 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102013219828.0A DE102013219828B4 (de) 2013-09-30 2013-09-30 Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle
PCT/EP2014/066498 WO2015043802A1 (de) 2013-09-30 2014-07-31 Verfahren zum phonetisieren von textenthaltenden datensätzen mit mehreren datensatzteilen und sprachgesteuerte benutzerschnittstelle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102013219828.0A DE102013219828B4 (de) 2013-09-30 2013-09-30 Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle

Publications (2)

Publication Number Publication Date
DE102013219828A1 DE102013219828A1 (de) 2015-04-02
DE102013219828B4 true DE102013219828B4 (de) 2019-05-02

Family

ID=51292951

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013219828.0A Expired - Fee Related DE102013219828B4 (de) 2013-09-30 2013-09-30 Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle

Country Status (2)

Country Link
DE (1) DE102013219828B4 (de)
WO (1) WO2015043802A1 (de)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
WO1997034291A1 (de) 1996-03-14 1997-09-18 G Data Software Gmbh Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE19939947A1 (de) * 1999-08-23 2001-03-08 Data Software Gmbh G Sprachsyntheseverfahren mit Intonationsnachbildung
EP1554715A1 (de) * 2002-09-23 2005-07-20 Infineon Technologies AG Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
US6959279B1 (en) * 2002-03-26 2005-10-25 Winbond Electronics Corporation Text-to-speech conversion system on an integrated circuit
EP1798723A1 (de) 2005-12-14 2007-06-20 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Erzeugung von Sprachmustern für eine sprachgesteuerte Senderwahl
GB2451938A (en) * 2007-08-07 2009-02-18 Aurix Ltd Methods and apparatus for searching of spoken audio data
WO2009150591A1 (en) * 2008-06-11 2009-12-17 Koninklijke Philips Electronics N.V. Method and device for the generation of a topic-specific vocabulary and computer program product

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007016887B3 (de) * 2007-04-10 2008-07-31 Siemens Ag Verfahren und Vorrichtung zum Betreiben eines Navigationssystems
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
WO1997034291A1 (de) 1996-03-14 1997-09-18 G Data Software Gmbh Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE19939947A1 (de) * 1999-08-23 2001-03-08 Data Software Gmbh G Sprachsyntheseverfahren mit Intonationsnachbildung
US6959279B1 (en) * 2002-03-26 2005-10-25 Winbond Electronics Corporation Text-to-speech conversion system on an integrated circuit
EP1554715A1 (de) * 2002-09-23 2005-07-20 Infineon Technologies AG Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
EP1798723A1 (de) 2005-12-14 2007-06-20 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Erzeugung von Sprachmustern für eine sprachgesteuerte Senderwahl
GB2451938A (en) * 2007-08-07 2009-02-18 Aurix Ltd Methods and apparatus for searching of spoken audio data
WO2009150591A1 (en) * 2008-06-11 2009-12-17 Koninklijke Philips Electronics N.V. Method and device for the generation of a topic-specific vocabulary and computer program product

Also Published As

Publication number Publication date
WO2015043802A1 (de) 2015-04-02
DE102013219828A1 (de) 2015-04-02

Similar Documents

Publication Publication Date Title
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69129163T2 (de) Verfahren und Vorrichtung zur Texteingabe
DE69726499T2 (de) Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69607601T2 (de) System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax
DE69715784T2 (de) Verfahren und Vorrichtung zur automatischen Erzeugung eines Spracherkennungswörterbuchs aus einer Telefonauskunftsliste
DE68913669T2 (de) Namenaussprache durch einen Synthetisator.
DE602005004503T2 (de) Multilinguale Spracherkennung
DE102012202407B4 (de) Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
DE102006034192A1 (de) Spracherkennungsverfahren, -system und -vorrichtung
DE102007014405B4 (de) Verfahren zur Worterkennung in Zeichensequenzen
EP2815395A1 (de) Verfahren und einrichtung zur phonetisierung von textenthaltenden datensätzen
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE102013219828B4 (de) Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle
EP2006835B1 (de) Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
DE112014006591B4 (de) Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren
DE102014010315B4 (de) Computer-implementiertes Verfahren und Vorrichtung zur Verarbeitung von Spracheingaben
EP3665619B1 (de) Verfahren zum erzeugen einer sprachansage als rückmeldung zu einer handschriftlichen nutzereingabe sowie entsprechende bedienvorrichtung und kraftfahrzeug
EP1554715B1 (de) Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
DE19754957A1 (de) Verfahren zur Spracherkennung
EP2012303B1 (de) Verfahren zur Erkennung eines Sprachsignals
DE102016125162A1 (de) Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten
DE3216871A1 (de) Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
DE10253868B3 (de) Verfahren und Anordnung zur Synchronisation von Test- und Referenzmustern sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee