DE10311581A1 - Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen - Google Patents

Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen Download PDF

Info

Publication number
DE10311581A1
DE10311581A1 DE10311581A DE10311581A DE10311581A1 DE 10311581 A1 DE10311581 A1 DE 10311581A1 DE 10311581 A DE10311581 A DE 10311581A DE 10311581 A DE10311581 A DE 10311581A DE 10311581 A1 DE10311581 A1 DE 10311581A1
Authority
DE
Germany
Prior art keywords
database
text
speech recognition
recognition system
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10311581A
Other languages
English (en)
Inventor
Marian Trinkel
Christel Müller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE10311581A priority Critical patent/DE10311581A1/de
Priority to US10/797,382 priority patent/US20040181407A1/en
Publication of DE10311581A1 publication Critical patent/DE10311581A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Aufbau und/oder zur Erweiterung einer Wortschatzdatenbank (2) eines Spracherkennungssystems (1) durch akustisches Trainieren des Spracherkennungssystems (1), bei dem das Spracherkennungssystem (1) durch ein computergestütztes Audiomodul trainiert wird. Die Erfindung betrifft weiterhin ein Spracherkennungssystem mit einer Wortschatzdatenbank und einer Sprachsynthese-Einheit (14), der zum Aufbau und/oder zur Erweiterung der Wortschatzdatenbank (2) durch akustisches Vorsprechen Textdaten aus einer Textdatenbank (13) zuführbar sind, die durch eine automatische Suche nach Textdaten zu einem vorgegebenen Suchbegriff in einem Telekommunikationsnetzwerk (4) generiert ist.

Description

  • Die Erfindung betrifft ein Verfahren zum Aufbau und/oder zur Erweiterung einer Wortschatzdatenbank eines Spracherkennungssystems durch akustisches Trainieren des Spracherkennungssystems. Die Erfindung betrifft weiterhin ein Spracherkennungssystem mit einer Wortschatzdatenbank.
  • Spracherkennungssysteme sind allgemein bekannt und werden mittlerweile in verschiedenen Anwendungsgebieten eingesetzt. Beispielsweise kann ein Spracherkennungssystem eingesetzt werden, um in Abkehr von einer manuellen Bedienung eine Datenverarbeitungsanlage oder eine jegliche Maschine mittels Sprachbefehlen zu bedienen.
  • Ebenso gibt es Anwendungen in Form von sogenannten Diktierprogrammen, bei dem ein Spracherkennungssystem die von einem Benutzer in ein Mikrofon eingesprochenen Worte analysiert, erkennt und in Textdaten umsetzt, so dass hierdurch ein direktes Diktieren von Text in eine Textverarbeitung eines Rechnersystems ermöglicht wird.
  • Die Grundlage eines jeglichen solchen Spracherkennungssystemes bildet eine Wortschatzdatenbank, die für einen Vergleich des von einem Benutzer gesprochenen Wortes mit dem gespeicherten Wortschatz herangezogen wird, um mit einer hohen Genauigkeit feststellen zu können, welches Wort ein Benutzer gesprochen hat und dementsprechend im Text umzusetzen ist.
  • Eine derartige Wortschatzdatenbank enthält nicht die Worte im eigentlichen Sinn, sondern Daten/Parameter, die aus gesprochenen Worten ermittelt wurden und grundsätzlich von der Art des Erkennungsalgorithmus abhängig sind, der einer Spracherkennung zugrunde gelegt wird.
  • So ist es bekannt, verschiedene Methoden der Spracherkennung einzusetzen, die beispielsweise häufig auf den sogenannten Hidden-Markov-Modellen oder dem „dynamic pattern matching" bzw. „dynamic time warping" beruhen, bei dem ein untersuchtes Wort mit Referenzwörtern verglichen wird, die im Wortschatz gespeichert sind.
  • Häufig haben die verschiedenen Möglichkeiten der Spracherkennung gemeinsam, dass ein erhaltenes Sprachsignal einer akustische Vorverarbeitung unterzogen wird, bei der die Wörter in Phoneme unterteilt werden, d.h. in sprachlich kleinste Einheiten. Hierzu wird eine funktionelle Analyse der verschiedenen möglichen Laute einer Sprache vorgenommen.
  • Es können z.B. in einem ersten Schritt einer Spracherkennung Kurzzeitspektren eines akustischen Signals aufgenommen werden, die in einer Analyse direkt oder nach einer Datenverarbeitung als Muster dienen für einen Vergleich mit in einer Wortschatzdatenbank abgespeicherten Referenzmustern.
  • Unabhängig von der Art des Algorithmus bedarf es dementsprechend immer einer Wortschatzdatenbank bzw. deren Parameter mit einem für den verwendeten Algorithmus wortschatztypischen Aufbau, die zur Erkennung von gesprochenen Worten verwendet wird. Hierbei wird in Verbindung mit Spracherkennungsprogrammen oder -systemen üblicherweise eine Standardwortschatzdatenbank mitgeliefert, mit der bereits eine hohe Erkennungsquote der von einem Benutzer gesprochenen Worte möglich ist.
  • Häufig besteht jedoch noch die Notwendigkeit eine Wortschatzdatenbank für ein neues Sprachfeld zu erweitern, insbesondere dann, wenn Fachworte verwendet werden, die bislang in der Wortschatzdatenbank nicht zur Verfügung standen. Zur Aufnahme derartiger Fachworte bzw. allgemein von neu zu erlernenden Worten ist es üblicherweise vorgesehen ein Spracherkennungssystem akustisch zu trainieren, was bedeutet, dass dem Spracherkennungssystem die neu zu lernenden Worte vorgesprochen werden. Durch Aufnahme dieser neu vorgesprochenen Worte in die Wortschatzdatenbank wird dementsprechend die Wortschatzdatenbank kontinuierlich vergrößert, so dass das Spracherkennungssystem einen neuen Wortschatz erlernen kann.
  • Im Stand der Technik ist es bekannt derartige Wortschatzdatenbanken üblicherweise durch hohen personellen Aufwand aufzubauen bzw. zu erarbeiten. Hierfür werden die neu aufzunehmenden Worte zusammengestellt, bearbeitet und in mühevoller personeller Arbeit durch Menschen z.B. in eine akustische Datenbank aufgesprochen, mit der dann ein Spracherkennungssystem auf die bekannte Art und Weise akustisch trainiert wird.
  • Hierbei wird unter einem akustischen Trainieren nicht nur verstanden, dass neu zu lernende Worte zunächst in akustische Schallwellen gewandelt werden und über einen Mikrofoneingang einem Spracherkennungssystem zur Verfügung gestellt werden. Grundsätzlich kann beim akustischen Trainieren eines Spracherkennungssystems eine Schallwandlung unterbleiben und dem Spracherkennungssystem sofortig die akustischen Daten elektronisch zur Verfügung gestellt werden.
  • Dies ist z.B. der Fall, wenn eine Tonbandaufzeichnung direkt in den Mikrofoneingang eines Spracherkennungssystems elektronisch eingespielt wird, ohne vorher eine Schallwandlung vorzunehmen. Auch ein derartiges Trainieren eines Spracherkennungssystems wird im Sinne dieser Erfindung als akustisches Trainieren verstanden, da das Training auf akustischen, wenn auch nur elektronisch vorliegenden Signalen beruht.
  • Das Aufbauen und Erweitern einer Wortschatzdatenbank und deren Parameter, wie im Stand der Technik bekannt, stellt dementsprechend einen großen manuellen und personellen Aufwand dar, so dass derartige Datenbanken nur unter Einsatz großer Kosten erstellt, erarbeitet und erweitert werden können.
  • Aufgabe der Erfindung ist es ein Verfahren und ein System zum Aufbau und/oder zur Erweiterung einer Wortschatzdatenbank eines Spracherkennungssystems bereitzustellen, mit dem auf kostengünstige Art und Weise ohne personellen Einsatz eine Wortschatzdatenbank aufgebaut oder eine bestehende erweitert werden kann.
  • Aufgrund des hohen personellen Aufwandes durch viele verschiedene Menschen ergeben sich im Stand der Technik auch Probleme im Trainingsprozeß des Spracherkennungssystem, da jeder Mensch ein anderes Stimmbild hat, welches mit dem der später bedienenden Person nicht übereinstimmt.
  • Diese Aufgabe wird gemäß der Erfindung dadurch gelöst, dass das Spracherkennungssystem durch ein computergestütztes Audiomodul trainiert wird.
  • Der Grundgedanke der Erfindung liegt darin, ein Spracherkennungssystem statt durch eine Person zu trainieren bzw. die Wortschatzdatenbank durch Personen zu erstellen/erweitern, die neu zu erlernenden Worte automatisiert vorzusprechen.
  • Gemäß der Erfindung ist es vorgesehen, dass dieses Vorsprechen neu zu erlernender Worte durch ein computergestütztes Audiomodul erfolgt. Dementsprechend kann hier der personelle Aufwand minimiert werden, so dass die Wortschatzdatenbanken mittels des erfindungsgemäßen Verfahrens äußerst kostengünstig und standarisiert erstellt werden können.
  • Gemäß der Erfindung ist es bevorzugt vorgesehen, dass dem Audiomodul Wortschatzinformationen zugeführt werden, die das Audiomodul dem Spracherkennungssystem automatisch zur Erweiterung der Wortschatzdatenbank vorspricht. Wie oben erwähnt, setzt dieses Vorsprechen nicht notwendigerweise eine Wandlung der Wortschatzinformationen mittels eines Lautsprechersystems in Schall voraus, der dann anschließend mit einem Mikrofonsystem wiederum in ein elektrisches Signal gewandelt wird, sondern es besteht auch hier die Möglichkeit die Schallwandlung zu umgehen und sofortig das akustische elektrische Signal dem Spracherkennungssystem zur Verfügung zu stellen.
  • Besonders bevorzugt wird bei dem erfindungsgemäßen Verfahren das Audiomodul die Wortschatzinformationen von einer Sprachdatenbank und/oder über ein Telekommunikationsnetzwerk erhalten. Gerade bei einer Lieferung der Wortschatzinformationen über ein Telekommunikationsnetzwerk besteht beispielsweise die Möglichkeit im sogenannten streaming modus die Daten zur Verfügung zu stellen. Dies kann beispielsweise über das Internet erfolgen, wenn z.B. Radiosendungen über das Internet empfangen werden. So besteht z.B. die Möglichkeit über das Internet das in einer Radiosendung verwendete Fachvokabular zu einem bestimmten Thema einem Spracherkennungssystem automatisch beizubringen, indem diese Streamingdaten dem Audiomodul zur Verfügung gestellt werden, welches sodann automatisch diese Sprachdaten dem Spracherkennungssystem vorspricht.
  • In einer weiteren bevorzugten Ausführung des erfindungsgemäßen Verfahrens kann es vorgesehen sein, dass die genannte Sprachdatenbank durch eine automatisierte Sprachsynthese von Textinformationen in einer Sprachsyntheseeinheit erzeugt wird. Hierbei können die Textinformationen z.B. einer Textdatenbank entnommen werden. Es besteht somit die Möglichkeit auf beliebige bestehende Textdatenbanken Rückgriff zu nehmen und die darin gespeicherten Textdaten durch eine Sprachsyntheseeinheit in Sprachinformationen umzuwandeln, die sodann in eine Sprachdatenbank eingeschrieben werden, welche ihrerseits dann wiederum dem Spracherkennungssystem zum Training zur Verfügung gestellt wird, wofür die in der Sprachdatenbank gespeicherten Sprachdaten z.B. über das Audiomodul dem Spracherkennungssystem vorgesprochen werden.
  • In einer besonders bevorzugten Ausführung kann das Audiomodul eines Spracherkennungssystems selbst eine derartige Sprachsyntheseeinheit umfassen, so dass Textinformationen, insbesondere aus einer Textdatenbank, direkt von dem Spracherkennungssystem in Sprachinformationen gewandelt werden können, um anhand dieser Informationen das Training und somit die Erweiterung der Wortschatzdatenbank durchzuführen.
  • Die künstliche Sprachsynthese hat hier den Vorteil, dass das Spracherkennungssystem die Wortschatzinformationen immer mit einer „genormten" Stimme vorgesprochen erhält, so dass weniger Probleme beim akustischen Trainieren vorkommen. Hierbei kann es vorgesehen sein, dass der Sprachsyntheseeinheit bestimmte gewünschte Sprach-Parameter bzw. Stimm-Parameter vorgegeben werden, z.B. hinsichtlich Geschlecht, der künstlichen Stimme, Alter, Körperbau, Dialekt, etc., um eine möglichst nahe Anpassung an den späteren tatsächlichen Benutzer des Spracherkennungssystems zu erreichen.
  • Visuelle textliche Informationen können dem System automatisiert vorgegeben werden, z.B. durch ein Einscannen von Textdarstellungen.
  • Neben der Möglichkeit vorhandene Textdatenbanken einzusetzen, kann das erfindungsgemäße Verfahren auch derart durchgeführt werden, dass die Textinformationen der Sprachsyntheseeinheit von einer automatisch erzeugten Textdatenbank zugeführt werden.
  • Eine derartig automatisch erzeugte Textdatenbank kann für einen spezifischen Fall automatisch generiert werden, beispielsweise wenn Vokabular einer bestimmten Fachrichtung gezielt dem Spracherkennungssystem beigebracht werden soll. Hierfür kann es gemäß dem erfindungsgemäßen Verfahren bevorzugt vorgesehen sein, dass in der Textdatenbank automatisch die Textdaten zu wenigstens einer Textdatenquelle gespeichert werden, die über wenigstens eine Suchmaschine in einem internen oder externen Telekommunikationsnetzwerk, insbesondere dem Internet, zu wenigstens einem vorgegebenen Suchbegriff ermittelt werden.
  • Bekannt ist es, dass z.B. im Internet als einem möglichen externen Kommunikationsnetzwerk durch Eingabe eines gewünschten Suchbegriffes in einer Suchmaschine eine Vielzahl sogenannter Links aufgefunden werden, unter denen Textdaten zu finden sind, die in engem Zusammenhang mit dem eingegebenen Suchbegriff stehen. Insofern können auf diese Art und Weise sehr schnell und vor allen Dingen kostengünstig erhebliche, z.B. statistisch relevante Mengen von Textdaten aufgefunden werden, die thematisch mit dem Suchbegriff in Verbindung stehen und im Rahmen des erfindungsgemäßen Verfahrens dem Spracherkennungssystem zum Training zur Verfügung gestellt werden.
  • Hierfür kann es vorgesehen sein, dass durch eine Datenverarbeitungsanlage, gegebenenfalls durch das Spracherkennungssystem selbst, automatisch die Textdaten von den ermittelten Textdatenquellen, also im Internet z.B. unter den verlinkten Adressen, gelesen und in der Textdatenbank gespeichert werden. So wird auf einfache und schnelle Art und Weise eine sehr große Textdatenbank aufgebaut, deren Inhalt mit dem Suchbegriff korreliert.
  • Da diese Textdaten gegebenenfalls auch solche Daten umfassen, die keinen Beitrag zur Wortschatzdatenbank liefern sollen, wie beispielsweise übliche Füllworte oder Standardvokabular, kann es vorgesehen sein, dass die Textdaten in der Textdatenbank vor einer Sprachsynthese analysiert und bearbeitet werden. Neben dem Entfernen von Füllworten kann es auch vorgesehen sein z.B. Mehrfachnennungen aus der Textdatenbank zu streichen und auch Informationen hinsichtlich einer Häufigkeitsverteilung bestimmter Worte zu erstellen, wobei diese Informationen ebenfalls in den Trainingsprozess des Spracherkennungssystems mit einfließen können, ebenso wie Informationen über Wahrscheinlichkeiten, mit denen bestimmte Textdaten untereinander in Verbindung stehen.
  • So ist es beispielsweise bekannt bei einer Spracherkennung auch eine sogenannte Kontextprüfung durchzuführen, bei der ermittelt wird, mit welcher Wahrscheinlichkeit auf ein ermitteltes Wort ein anderes Wort folgt, um aus mehreren möglichen Varianten eine sinnvolle Variante herauszusuchen. Dies wird beispielsweise durchgeführt, um Probleme mit Homophonen zu vermeiden, d.h. mit Worten, die gleich klingen, aber unterschiedliche Bedeutung haben.
  • Derartige Informationen z.B. über Kontextwahrscheinlichkeiten oder auch andere weitere Informationen jeglicher Art können gemäß der Erfindung vor der Durchführung einer Sprachsynthese aus den ermittelten Textdaten gewonnen und ergänzend einem Spracherkennungssystem zur Verfügung gestellt werden.
  • Gemäß der Erfindung umfasst dementsprechend im einfachsten Fall ein Spracherkennungssystem eine Wortschatzdatenbank sowie eine Sprachsyntheseeinheit, der zum Aufbau und/oder zur Erweiterung der Wortschatzdatenbank durch ein akustisches Vorsprechen Textdaten aus einer Textdatenbank zuführbar sind, wobei diese Textdatenbank erfindungsgemäß durch eine automatische Suche nach Textdaten zu einem vorgegebenen Suchbegriff in einem Telekommunikationsnetzwerk generiert ist.
  • Ein Ausführungsbeispiel der Erfindung ist in den nachfolgenden Zeichnungen näher erläutert. Es zeigen:
  • 1 ein Spracherkennungssystem mit einem Anschluss an das Internet;
  • 2 eine genauere schematische Darstellung eines Spracherkennungssystems
  • Die 1 zeigt ein Spracherkennungssystem 1, welches Zugriff auf eine Wortschatzdatenbank 2 hat und von einem Benutzer 3 bedient wird. Ein derartiges System kann z. B. durch einen Heim-PC mit einem Diktierprogramm gebildet sein.
  • Neben der hier nicht weiter erläuterten Möglichkeit zur Spracherkennung z.B. im Rahmen einer Diktierfunktion innerhalb eines Textverarbeitungsprogramms ist gemäß der Erfindung das Spracherkennungssystem 1 über entsprechende Telekommunikationsleitungen mit dem Internet 4 verbunden.
  • Möchte nun ein Benutzer 3 den Sprachwortschatz in der Wortschatzdatenbank 2 z. B. durch spezifisches Fachvokabular erweitern, so kann der Benutzer 3 z. B. über ein Computerterminal dem Spracherkennungssystem einen Suchbegriff vorgeben, der in dem entsprechenden, neu zu erlernenden Fachbereich typisch ist. Über das erfindungsgemäße Spracherkennungssystem 1 wird mittels des Internets 4 z. B. eine erste Suchmaschine 5 angesprochen, in die der Suchbegriff eingetragen wird, woraufhin die Suchmaschine 5 im Internet bzw. in einer ihr zugeordneten Datenbank 6 nach Textdaten bzw. Hyperextdaten sucht, in denen der Suchbegriff vorkommt, woraufhin diese Textdaten ebenfalls wiederum über das Internet dem Spracherkennungssystem zur Verfügung gestellt werden.
  • Hier kann es auch vorgesehen sein, dass das Spracherkennungssystem 1 über das Internet zunächst eine zentrale Suchmaschine 7 mit der Suche nach dem gewünschten Begriff beauftragt, die ihrerseits auf mehrere Datenbanken 8 und 9 Zugriff hat und darüber hinaus noch weitere dezentrale Suchmaschinen 10 und 11 beauftragt, die ihrerseits in entsprechend zugeordneten Datenbanken nach dem Suchbegriff recherchieren. So kann also auch durch das Spracherkennungssystem eine sogenannte Meta-Suchmaschine beauftragt werden, die die Suche auf weitere Suchmaschinen unterverteilt.
  • Die insgesamt erhaltenen Textdatenmengen können dezentral oder auch zentral im Spracherkennungssystem gesammelt werden und gegebenenfalls nach einer Vorverarbeitung zum Trainieren des Spracherkennungssystems mittels einer Sprachsyntheseeinheit herangezogen werden. Dieses Vorgehen ist in der 2 näher erläutert.
  • Gemäß der 2 kann ein Benutzer 3 über ein Computersystem 12 eine Suchbegriffsanfrage starten z.B. über eine Telekommunikationsverbindung in das Internet 4 an eine oder mehrere Suchmaschinen 5, die z.B. Dantenbanken 6 Zugriff haben.
  • Die ermittelten Textquellen, im Internet als Links bezeichnet, werden gemäß dem erfindungsgemäßen Verfahren z.B. bevorzugt durch das Computersystem 12 automatisch aufgerufen, so dass die darin enthaltenen Textdaten gesammelt und in eine Textdatenbank 13 übermittelt werden können, wo diese Textdaten gesammelt und gegebenenfalls überarbeitet werden, z.B. in dem Sinne, dass Füllworte gestrichen, Mehrfachnennungen eliminiert und gegebenenfalls Kontextzusammenhänge festgestellt werden.
  • Die gesammelten, in der Textdatenbank 13 vorgehaltenen Textdaten können sodann einer Sprachsyntheseeinheit 14 zugeführt werden, wodurch die Textdaten in Sprachinformationen konvertiert werden und in der Datenbank 2 abgelegt werden.
  • Nach dieser Sprachkonversion erfolgt die eigentliche Lernphase, d.h. dem Spracherkennungssystem 1 werden intern gegebenenfalls ohne eine Schallwandlung nur auf elektronischem Wege die Sprachdaten aus der Datenbank 2 vorgesprochen, wobei eine interne Datenbank des Spracherkennungssystem 1 erweitert wird.
  • Die einzelnen Elemente 1, 12, 13, 14 und 2 können auch zu einem Modul 15 zusammengefasst werden.
  • Das erfindungsgemäße Verfahren bietet dementsprechend zusammenfassend eine sehr kostengünstige Möglichkeit eine bestehende Wortschatzdatenbank eines Spracherkennungssystems bzw. eine neu aufzubauende Wortschatzdatenbank zu generieren, in dem automatisch auf eine Fülle von Textdaten der entsprechenden Datenbanken Rückgriff genommen wird, wobei diese Textdaten bevorzugt durch eine Sprachsyntheseeinheit dem Spracherkennungssystem vorgesprochen werden, um den Lernprozess auszuführen.

Claims (10)

  1. Verfahren zum Aufbau und/oder zur Erweiterung einer Wortschatzdatenbank (2) eines Spracherkennungssystems (1) durch akustisches Trainieren des Spracherkennungssystems (1), dadurch gekennzeichnet, dass das Spracherkennungssystem (1) durch ein computergestütztes Audiomodul trainiert wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass dem Audiomodul Wortschatz-Informationen zugeführt werden, die das Audiomodul dem Spracherkennungssystem (1) automatisiert zur Erweiterung der Wortschatzdatenbank (2) vorspricht.
  3. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Audiomodul die Wortschatz-Informationen von einer Sprachdatenbank und/oder über ein Telekommunikationsnetzwerk (4), insbesondere im Streaming-Modus, erhält.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Sprachdatenbank durch automatisierte Sprachsynthese von Textinformationen in einer Sprachsynthese-Einheit (14), insbesondere aus einer Textdatenbank (13), erzeugt wird.
  5. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Audiomodul eine Sprachsynthese-Einheit (14) umfasst, die Textinformationen, insbesondere aus einer Textdatenbank (13), in Sprachinformationen wandelt.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Textinformationen der Sprachsynthese-Einheit (14) von einer automatisch erzeugten Textdatenbank (13) zugeführt werden.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass in der Textdatenbank (13) automatisch die Textdaten zu wenigstens einer Textdatenquelle gespeichert werden, die über wenigstens eine Suchmaschine (5, 7, 10, 11) in einem internen oder externen Telekommunikationsnetzwerk (4), insbesondere dem Internet, zu wenigstens einem vorgegebenen Suchbegriff ermittelt werden.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass durch eine Datenverarbeitungsanlage automatisch die Textdaten von den ermittelten Textdatenquellen gelesen und in der Textdatenbank (13) gespeichert werden.
  9. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Textdaten in der Textdatenbank (13) vor einer Sprachsynthese (14) analysiert und bearbeitet werden.
  10. Spracherkennungssystem mit einer Wortschatzdatenbank, gekennzeichnet durch eine Sprachsynthese-Einheit (14), der zum Aufbau und/oder zur Erweiterung der Wortschatzdatenbank (2) durch akustisches Vorsprechen Textdaten aus einer Textdatenbank (13) zuführbar sind, die durch eine automatische Suche nach Textdaten zu einem vorgegebenen Suchbegriff in einem Telekommunikationsnetzwerk (4) generiert ist.
DE10311581A 2003-03-10 2003-03-10 Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen Ceased DE10311581A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE10311581A DE10311581A1 (de) 2003-03-10 2003-03-10 Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen
US10/797,382 US20040181407A1 (en) 2003-03-10 2004-03-10 Method and system for creating speech vocabularies in an automated manner

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10311581A DE10311581A1 (de) 2003-03-10 2003-03-10 Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen

Publications (1)

Publication Number Publication Date
DE10311581A1 true DE10311581A1 (de) 2004-09-23

Family

ID=32892265

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10311581A Ceased DE10311581A1 (de) 2003-03-10 2003-03-10 Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen

Country Status (2)

Country Link
US (1) US20040181407A1 (de)
DE (1) DE10311581A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2325836A1 (de) * 2009-11-24 2011-05-25 Deutsche Telekom AG Verfahren und System für das Training von Sprachverarbeitungseinrichtungen

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090082B2 (en) 2006-01-23 2012-01-03 Icall, Inc. System, method and computer program product for extracting user profiles and habits based on speech recognition and calling history for telephone system advertising
US8359204B2 (en) * 2007-10-26 2013-01-22 Honda Motor Co., Ltd. Free-speech command classification for car navigation system
US11048765B1 (en) 2008-06-25 2021-06-29 Richard Paiz Search engine optimizer
US10922363B1 (en) * 2010-04-21 2021-02-16 Richard Paiz Codex search patterns
US8949124B1 (en) 2008-09-11 2015-02-03 Next It Corporation Automated learning for speech-based applications
US11741090B1 (en) 2013-02-26 2023-08-29 Richard Paiz Site rank codex search patterns
US11809506B1 (en) 2013-02-26 2023-11-07 Richard Paiz Multivariant analyzing replicating intelligent ambience evolving system
US11423023B2 (en) 2015-06-05 2022-08-23 Apple Inc. Systems and methods for providing improved search functionality on a client device
US10360902B2 (en) * 2015-06-05 2019-07-23 Apple Inc. Systems and methods for providing improved search functionality on a client device
US10769184B2 (en) 2015-06-05 2020-09-08 Apple Inc. Systems and methods for providing improved search functionality on a client device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
DE69420801T2 (de) * 1993-09-06 2000-07-06 Alcatel Sa Verfahren zur Erzeugung von Komponenten einer Sprachdatenbasis unter Verwendung der Sprachsynthesetechnik und Gerät zur automatischen Spracherkennung

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6279029B1 (en) * 1993-10-12 2001-08-21 Intel Corporation Server/client architecture and method for multicasting on a computer network
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
CA2209948C (en) * 1995-11-17 2000-12-26 At&T Corp. Automatic vocabulary generation for telecommunications network-based voice-dialing
US5809471A (en) * 1996-03-07 1998-09-15 Ibm Corporation Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
ATE320650T1 (de) * 1999-06-30 2006-04-15 Ibm Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems
US20020049848A1 (en) * 2000-06-12 2002-04-25 Shaw-Yueh Lin Updatable digital media system and method of use thereof
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US7035804B2 (en) * 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
US7093277B2 (en) * 2001-05-30 2006-08-15 Digeo, Inc. System and method for improved multi-stream multimedia transmission and processing
US20030007609A1 (en) * 2001-07-03 2003-01-09 Yuen Michael S. Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers
US20040049389A1 (en) * 2002-09-10 2004-03-11 Paul Marko Method and apparatus for streaming text to speech in a radio communication system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69420801T2 (de) * 1993-09-06 2000-07-06 Alcatel Sa Verfahren zur Erzeugung von Komponenten einer Sprachdatenbasis unter Verwendung der Sprachsynthesetechnik und Gerät zur automatischen Spracherkennung
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2325836A1 (de) * 2009-11-24 2011-05-25 Deutsche Telekom AG Verfahren und System für das Training von Sprachverarbeitungseinrichtungen

Also Published As

Publication number Publication date
US20040181407A1 (en) 2004-09-16

Similar Documents

Publication Publication Date Title
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
DE60124225T2 (de) Verfahren und Vorrichtung zur Erkennung von Emotionen
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE10058811A1 (de) Verfahren zur Identifizierung von Musikstücken
DE602004006641T2 (de) Audio-dialogsystem und sprachgesteuertes browsing-verfahren
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE10042944A1 (de) Graphem-Phonem-Konvertierung
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE10220521B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE10311581A1 (de) Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8110 Request for examination paragraph 44
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final