DE10251112A1 - Verfahren und System zur Spracherkennung - Google Patents

Verfahren und System zur Spracherkennung Download PDF

Info

Publication number
DE10251112A1
DE10251112A1 DE10251112A DE10251112A DE10251112A1 DE 10251112 A1 DE10251112 A1 DE 10251112A1 DE 10251112 A DE10251112 A DE 10251112A DE 10251112 A DE10251112 A DE 10251112A DE 10251112 A1 DE10251112 A1 DE 10251112A1
Authority
DE
Germany
Prior art keywords
recognition
user
recognition result
output
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10251112A
Other languages
English (en)
Inventor
Albert R.R. Drs. Kooiman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE10251112A priority Critical patent/DE10251112A1/de
Priority to PCT/IB2003/004717 priority patent/WO2004042699A1/en
Priority to US10/532,918 priority patent/US20050288922A1/en
Priority to CNB2003801025097A priority patent/CN100524459C/zh
Priority to AU2003274432A priority patent/AU2003274432A1/en
Priority to AT03758411T priority patent/ATE421748T1/de
Priority to EP03758411A priority patent/EP1561204B1/de
Priority to DE60325997T priority patent/DE60325997D1/de
Priority to JP2004549439A priority patent/JP4960596B2/ja
Publication of DE10251112A1 publication Critical patent/DE10251112A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Image Analysis (AREA)
  • Telephone Function (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Es wird ein Verfahren zur Spracherkennung beschrieben, bei welchem ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird. Innerhalb einer Prüfprozedur wird das mit größter Wahrscheinlichkeit passende Erkennungsergebnis wieder in ein Sprachsignal umgewandelt und zur Verifikation und/oder Korrektur an den Nutzer ausgegeben. Bei der Analyse wird eine Anzahl von alternativen Erkennungsergebnissen generiert, welche mit den nächstgrößten Wahrscheinlichkeiten zu dem zu erkennenden Sprachsignal passen. Die Ausgabe innerhalb der Prüfprozedur erfolgt derart, dass der Benutzer bei einer Fehlerhaftigkeit des ausgegebenen Erkennungsergebnisses die Ausgabe unterbrechen kann. Es werden dann automatisch für einen vor einer Unterbrechung zuletzt ausgegebenen Abschnitt des betreffenden Erkennungsergebnisses jeweils entsprechende Abschnitte der alternativen Erkennungsergebnisse für eine Auswahl durch den Benutzer ausgegeben. Der betreffende Abschnitt im ausgegebenen Erkennungsergebnis wird anschließend auf Basis des entsprechenden Abschnitts eines ausgewählten alternativen Erkennungsergebnisses korrigiert. Die Prüfprozedur wird schließlich für die verbleibenden nachfolgenden Abschnitte des zu erkennenden Sprachsignals fortgesetzt. Darüber hinaus wird ein entsprechendes Spracherkennungssystem beschrieben.

Description

  • Die Erfindung betrifft ein Verfahren zur Spracherkennung, bei dem ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird und ein mit einer größten Wahrscheinlichkeit passendes Erkennungsergebnis innerhalb einer Prüfprozedur wieder in eine Sprachinformation umgewandelt und zur Verifikation und/oder Korrektur an den Nutzer ausgegeben wird. Außerdem betrifft die Erfindung ein Spracherkennungssystem mit einer Vorrichtung zur Erfassung eines Sprachsignals eines Benutzers, mit einer Spracherkennungseinrichtung, um das erfasste Sprachsignal zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation zu analysieren und ein mit einer größten Wahrscheinlichkeit passendes Erkennungsergebnis zu ermitteln, sowie mit einer Sprachausgabeeinrichtung, um das wahrscheinlichste Erkennungsergebnis innerhalb einer Prüfprozedur wieder in eine Sprachinformation umzuwandeln und zur Verifikation und/oder Korrektur an den Nutzer auszugeben.
  • Spracherkennungssysteme arbeiten in der Regel in der Weise, dass zunächst das Sprachsignal spektral oder zeitlich analysiert wird und das analysierte Sprachsignal dann abschnittsweise mit verschiedenen Modellen von möglichen Signalfolgen mit bekannten Sprachinformationen verglichen wird. Hierzu weist die Sprachausgabeeinrichtung in der Regel eine ganze Bibliothek von verschiedenen möglichen Signalfolgen – beispielsweise der sinnvollerweise in einer Sprache vorkommenden Wörter – auf. Anhand des Vergleichs des empfangenen Sprachsignals mit den zur Verfügung stehenden Modellen wird jeweils das am besten für einen bestimmten Abschnitt des Sprachsignals passende Modell ausgesucht, um zu einem Erkennungsergebnis zu gelangen. Dabei wird üblicherweise die Wahrscheinlichkeit berechnet, mit der jedes Modell zu dem jeweils zugehörigen Abschnitt des Sprachsignals passt. Sofern es sich bei dem Sprachsignal um längere Texte, beispielsweise einen oder mehrere Sätze handelt, werden bei der Analyse und bei der Berechnung der Wahrscheinlichkeit, wie gut die einzelnen Modelle zu den betreffenden Abschnitten eines Sprachsignals passen, auch grammatikalische und/oder linguistische Regeln hinzugezogen. Dadurch wird vermieden, dass die einzelnen Abschnitte des längeren Sprachsignals nicht nur isoliert gut zu den jeweiligen zur Verfügung stehenden Modellen passen, sondern es wird auch der Kontext berücksichtigt, innerhalb dessen sich die Sprachsignalabschnitte befinden, um insgesamt zu einem sinnvollen Erkennungsergebnis zu kommen und so die Fehlerquote zu verringern. Dennoch bleibt immer noch eine Rest-Fehlerwahrscheinlichkeit bestehen, dass von einem gesprochenen Text einige Sätze, Satzteile oder Wörter falsch verstanden wurden.
  • Bei den meisten Anwendungen ist es daher erforderlich, dass ein Benutzer des Spracherkennungssystems die Gelegenheit erhält, das Erkennungsergebnis zu überprüfen und gegebenenfalls zu korrigieren. Dies ist insbesondere in den Fällen notwendig, in denen der jeweilige Benutzer kein direktes Feedback auf eine Eingabe erhält, wie z. B. in Anwendungen, in denen der Benutzer einen längeren Text spricht, der dann in einer Schrifttextform oder in einer auf sonstige Weise maschinenlesbaren Textform (im Folgenden kurz „Textform" genannt) gespeichert wird. Typische Beispiele hierfür sind Diktiersysteme oder Anwendungen, bei denen Nachrichten zunächst in eine Textform umgewandelt werden und dann in dieser Textform verarbeitet bzw. über ein Kommunikationsnetz, beispielsweise als E-Mail, als Fax oder als SMS, weitergeleitet werden. Eine weitere solche Anwendungsform ist ein automatisches Übersetzungssystem, bei dem ein Sprachsignal zunächst in die Textform umgewandelt wird, dann auf Basis dieser Textform eine Übersetzung in eine andere Sprache erfolgt und schließlich der übersetzte Text wieder in ein Sprachsignal umgewandelt und mittels einer Sprachausgabeeinrichtung ausgegeben wird. Bei den klassischen Diktiersystemen an PCs ist es möglich, dass das Erkennungsergebnis unmittelbar in Textform auf einem Bildschirm des PCs dargestellt wird und dann der Benutzer den Text mit den üblichen Editierfunktionen korrigieren kann. Dieses Korrekturverfahren eignet sich jedoch nicht für solche Anwendungen, bei denen keine Möglichkeit für eine Sichtanzeige des erkannten Textes gegeben ist, beispielsweise bei einer Verwendung von Geräten ohne geeignete Anzeigeeinrichtung, wie „normale" Telefone oder bei Anwendungen für sehbehinderte Personen. In diesen Fällen ist es notwendig, das ermittelte Erkennungsergebnis über eine automatische Sprachausgabeeinrichtung, beispielsweise einen Text-to-Speech-Generator, wieder so in Sprachform an den Benutzer auszugeben, dass dieser die Möglichkeit hat, das Erkennungsergebnis zu bestätigen oder zu korrigieren.
  • Ein solches Verfahren wird beispielsweise in der US 6, 219,628 B1 beschrieben. In dieser Schrift werden verschiedene Möglichkeiten der Korrektur genannt. Eine Möglichkeit sieht vor, dass dem Benutzer die gesamte erkannte Nachricht vorgespielt wird und dieser – sofern das Erkennungsergebnis nicht der tatsächlich gesprochenen Nachricht entspricht – die Nachricht noch einmal spricht. Dieses Verfahren ist insbesondere unter solchen Bedingungen, bei denen die Erkennungs-Fehlerquote relativ hoch ist – beispielsweise bei Aufnahme eines Textes unter vielen Nebengeräuschen – nur wenig zufriedenstellend, da der Benutzer gegebenenfalls mehrfach die komplette Nachricht noch einmal sprechen muss, um letztlich das gewünschte Ergebnis zu erzielen. Bei einer zweiten Variante werden während der Analyse des Sprachsignals automatisch für bestimmte Abschnitte des Sprachsignals jeweils Gewissheitsfaktoren ermittelt. Anschließend werden dann nur die Abschnitte des Textes wieder an den Benutzer ausgegeben, welche einen geringen Gewissheitsfaktor haben, d. h. bei denen die Wahrscheinlichkeit, dass ein Fehler aufgetreten ist, am höchsten ist. Auf diese Weise ist jedoch eine vollständige Überprüfung des Textes nicht möglich. Bei einer dritten Variante ist vorgesehen, den Text in Abschnitten, beispielsweise wort- oder satzweise vorzuspielen und jeweils am Ende eines Abschnitts abzuwarten, wobei der Benutzer dann die Gelegenheit hat, jeden einzelnen Abschnitt individuell zu bestätigen oder abzulehnen, beispielsweise durch die Worte „ja" oder „nein". Wenn der Benutzer während der Pause eine längere Zeit schweigt, so wird dies als Zustimmung interpretiert. Sofern der Benutzer einen ausgegebenen Abschnitt ablehnt, hat er die Gelegenheit, diesen kompletten Abschnitt neu zu sprechen.
  • Diese dritte Variante ist zwar für den Benutzer schon erheblich zeitsparender und komfortabler als die erste Variante, bei der der Text komplett neu gesprochen werden muss. Dennoch besteht auch hier der Nachteil, dass der Benutzer insbesondere unter schwierigen Erkennungsbedingungen, bei denen eine höhere Fehlerquote auftritt, gegebenenfalls mehrfach den zu korrigierenden Abschnitt neu sprechen muss. Ein weiteres Problem dieser Methode tritt dann auf wenn beispielsweise bei einer besonders außergewöhnlichen Aussprache eines Textteils durch den Benutzer – z. B. wegen eines Dialekts des Benutzers – das Spracherkennungssystem nicht über die hierfür optimalen Modelle verfügt und daher auch bei mehrmaligem Sprechen immer wieder ein falsches Erkennungsergebnis als wahrscheinlichstes Erkennungsergebnis erhält.
  • Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren zur Spracherkennung und ein Spracherkennungssystem der eingangs genannten Art dahingehend zu verbessern, dass die Korrektur eines falsch verstandenen Sprachsignals einfacher, schneller und für den Benutzer komfortabler durchgeführt werden kann.
  • Diese Aufgabe wird dadurch gelöst, dass bei der Analyse gleich eine Anzahl von alternativen Erkennungsergebnissen, d. h. mindestens eine Alternative generiert wird, welche mit den nächst größten Wahrscheinlichkeiten zu dem zu erkennenden Sprachsignal passen. Die Ausgabe innerhalb der Prüfprozedur erfolgt dabei derart, dass der Benutzer bei einer Fehlerhaftigkeit des ausgegebenen Erkennungsergebnisses die Ausgabe unterbrechen kann. Es werden dann automatisch für einen vor einer Unterbrechung zuletzt ausgegebenen Abschnitt des betreffenden Erkennungsergebnisses jeweils die entsprechenden Abschnitte der alternativen Erkennungsergebnisse – ebenfalls in Sprachform – für eine Auswahl durch den Benutzer ausgegeben. Anschließend wird der betreffende Abschnitt im ausgegebenen Erkennungsergebnis auf Basis des vom Benutzer ausgewählten Abschnitts eines der alternativen Erkennungsergebnisse korrigiert. Schließlich wird die Prüfprozedur für die verbleibenden nachfolgenden Abschnitte des zu erkennenden Sprachsignals fortgesetzt.
  • Bei diesem Verfahren wird ausgenutzt, dass ohnehin von der Spracherkennungseinrichtung mehrere alternative Erkennungsergebnisse bezüglich ihrer Wahrscheinlichkeiten überprüft werden müssen, um das wahrscheinlichste Erkennungsergebnis zu ermitteln. Anstatt während der Analyse die unwahrscheinlicheren Ergebnisse wieder zu verwerfen, generiert hier die Spracherkennungseinrichtung die n-besten Sätze bzw. Worthypothesengraphen als Erkennungsergebnis-Alternativen und hinterlegt diese beispielsweise in einem Zwischenspeicher für die weitere Prüfprozedur. Der Mehraufwand für die Spracherkennungseinrichtung ist hierbei nur sehr gering. Während der Prüfprozedur können dann diese zusätzlichen Informationen dazu verwendet werden, um dem jeweiligen Benutzer alternative Angebote für den falsch erkannten Abschnitt des Erkennungsergebnisses zu machen. Da sich in vielen Fällen die Wahrscheinlichkeiten der verschiedenen Alternativen nur geringfügig unterscheiden, besteht oft eine relativ hohe Wahrscheinlichkeit, dass der Benutzer unter den Alternativen das richtige Erkennungsergebnis findet. Er kann diese richtige Alternative dann auf einfache Weise auswählen, ohne dass er den Textabschnitt neu sprechen muss. Die Gefahr, dass der zur Korrektur neu gesprochene Textabschnitt noch einmal falsch erkannt wird, besteht somit nicht mehr.
  • Die Ausgabe des Erkennungsergebnisses während der Prüfprozedur kann derart erfolgen, dass immer nach bestimmten Abschnitten eine kurze Pause gemacht und in diesen Pausen geprüft wird, ob der Benutzer beispielsweise durch die Worte „stopp" oder „nein" den letzten Abschnitt des Erkennungsergebnisses ablehnt. Vorzugsweise wird jedoch während der Ausgabe des Erkennungsergebnisses permanent die Sprachaktivität des Benutzers überwacht. Sobald der Benutzer in die Ausgabe hinein einen Kommentar abgibt, wird die Ausgabe unterbrochen. D. h. es wird ein sogenanntes „Barge-In-Verfahren" genutzt. Auf diese Weise kann auf unnötige Pausen während der Ausgabe verzichtet werden, so dass die Prüfprozedur sehr schnell abgeschlossen werden kann.
  • Um zu vermeiden, dass auch in den Fällen, in denen der Benutzer während der Sprachausgabe eine Äußerung gemacht hat, die zu einer Unterbrechung der Ausgabe geführt hat, obwohl sie an sich nicht dazu dienen sollte, die Sprachausgabe des Erkennungsergebnisses zu unterbrechen, sondern die beispielsweise anderen Personen im Raum galt, ist vorgesehen, dass der Benutzer durch Sprechen eines bestimmten Befehls wie z. B. „weiter" sofort die Ausgabe fortsetzen kann, ohne sich zunächst die verschiedenen alternativen Erkennungsergebnisse anzuhören.
  • Bei einem besonders bevorzugten Verfahren wird, sofern der Benutzer keinen Abschnitt der alternativen Erkennungsergebnisse auswählt, weil beispielsweise alle Erkennungsergebnisse falsch waren, ein Anforderungssignal an den Benutzer ausgegeben, damit dieser den betreffenden Abschnitt für eine Korrektur neu spricht.
  • Für die Auswahl der ausgegebenen alternativen Erkennungsergebnisse bestehen verschiedene Möglichkeiten.
  • Bei einer ersten Variante werden die Erkennungsergebnisse der Reihe nach ausgegeben und anschließend wird jeweils abgewartet, ob der Benutzer das Erkennungsergebnis bestätigt. Im Falle einer Bestätigung wird das alternative Erkennungsergebnis als richtig akzeptiert. Anderenfalls wird das nächste alternative Erkennungsergebnis ausgegeben.
  • Bei einer zweiten Variante werden alle alternativen Erkennungsergebnisse bzw. die betreffenden Abschnitte der alternativen Erkennungsergebnisse kontinuierlich aufeinanderfolgend ausgegeben und der Benutzer wählt anschließend das passende Erkennungsergebnis aus. Vorzugsweise wird dabei jedes alternative Erkennungsergebnis gemeinsam mit einem Indikator, beispielsweise einer Ziffer oder einem Buchstaben, ausgegeben, welcher dem jeweiligen Erkennungsergebnis zugeordnet ist. Die Auswahl des betreffenden Abschnitts der verschiedenen alternativen Erkennungsergebnisse kann dann durch eine Eingabe des Indikators erfolgen, indem der Benutzer einfach beispielsweise die betreffende Ziffer oder den Buchstaben spricht.
  • Bei einem weiteren bevorzugten Ausführungsbeispiel ist dem Indikator ein Tastensignal eines Kommunikationsendgeräts, beispielsweise ein DTMF-Signal eines Telefongeräts, zugeordnet. Die Auswahl eines der Abschnitte erfolgt dann durch Betätigung der entsprechenden Taste des Kommunikationsendgeräts. Dies hat den Vorteil, dass die Auswahl des Erkennungsergebnisses ohne Zwischenschaltung einer erneuten Spracherkennung erfolgt und dadurch bedingte weitere mögliche Fehler ausgeschlossen werden.
  • Alternativ kann auch bei der Ausgabe der alternativen Erkennungsergebnisse ein Barge-In-Verfahren verwendet werden. D. h. es werden dann die Abschnitte der alternativen Erkennungsergebnisse ohne Pause hintereinander ausgegeben und der Benutzer sagt einfach „stopp" oder „ja" oder dgl., wenn das richtige Erkennungsergebnis ausgegeben wird.
  • Bei einem besonders bevorzugten Ausführungsbeispiel werden nach einer Korrektur eines Abschnitts die verschiedenen Erkennungsergebnisse bezüglich ihrer Wahrscheinlichkeiten, mit denen sie jeweils zu dem erkennenden Sprachsignal passen, unter Berücksichtigung des korrigierten Abschnitts sowie aller zuvor bereits bestätigten oder korrigierten Abschnitte neu bewertet. Die Prüfprozedur wird dann mit der Ausgabe der nachfolgenden Abschnitte des Erkennungsergebnisses fortgesetzt, welches nach der Neubewertung die höchste Wahrscheinlichkeit aufweist. Durch die Neubewertung auf Basis aller bereits korrigierten bzw. bestätigten Teile des zu erkennenden Sprachsignals kann bei einer kontextabhängigen Wahrscheinlichkeitsanalyse das Erkennungsergebnis noch im Lauf der Prüfprozedur permanent verbessert werden und damit die Wahrscheinlichkeiten für notwendige Korrekturen in nachfolgenden Abschnitten vermindert werden.
  • Sofern längere Texte bzw. Nachrichten erkannt werden sollen, gibt es für die Durchführung der Prüfprozedur verschiedene Möglichkeiten.
  • Bei einer Variante erfolgt die Prüfprozedur erst nach Eingabe eines vollständigen Textes durch den Benutzer. Dass der gewünschte Text vollständig gesprochen wurde, kann beispielsweise durch den Benutzer mittels eines entsprechenden Befehls wie „Ende" oder dergl. signalisiert werden.
  • Bei einer anderen Variante erfolgt die Prüfprozedur jeweils bereits nach Eingabe eines Teils eines vollständigen Textes. Dies hat den Vorteil, dass bereits verifizierte bzw. korrigierte Teile des Textes gegebenenfalls in anderen Komponenten der Applikation weiter verarbeitet oder in einem Speicher hinterlegt werden können, ohne dass das Spracherkennungssystem hierdurch noch belastet wird. So kann beispielsweise immer dann eine Prüfprozedur für einen zuvor eingegebenen Textteil erfolgen, sobald eine bestimmte Länge des Textteils bzw. Sprachsignals erreicht ist und/oder wenn eine Sprechpause mit einer bestimmten Länge vorliegt und/oder wenn der Benutzer dies mit einem besonderen Befehl vorgibt.
  • Ein erfindungsgemäßes Spracherkennungssystem muss zur Durchführung des erfindungsgemäßen Verfahrens eine Spracherkennungseinrichtung aufweisen, die derart ausgebildet ist, dass sie bei der Analyse eine Anzahl von alternativen Erkennungsergebnissen generiert und ausgibt bzw. speichert, die jeweils – bezogen auf das mit der größten Wahrscheinlichkeit passende, ohnehin ausgegebene Erkennungsergebnis – mit den nächstgrößten Wahrscheinlichkeiten zu dem zu erkennenden Sprachsignal passen. Darüber hinaus benötigt das Spracherkennungssystem Mittel zur Unterbrechung der Ausgabe innerhalb der Prüfprozedur durch den Benutzer sowie eine Dialog-Steuereinrichtung, welche automatisch für einen vor einer Unterbrechung zuletzt ausgegebenen Abschnitt des betreffenden Erkennungsergebnisses jeweils die entsprechenden Abschnitte der alternativen Erkennungsergebnisse ausgibt. Weiterhin muss das Spracherkennungssystem Mittel zur Auswahl eines der ausgegebenen Abschnitte der alternativen Erkennungsergebnisse sowie eine Korrektureinrichtung zur Korrektur des betreffenden Abschnitts im zunächst ausgegebenen Erkennungsergebnis auf Basis des entsprechenden Abschnitts des ausgewählten alternativen Erkennungsergebnisses aufweisen.
  • Sofern die Auswahl des alternativen Erkennungsergebnisses mittels eines Tastensignals eines Kommunikationsendgeräts erfolgen soll, ist es notwendig, dass das Spracherkennungssystem auch eine entsprechende Schnittstelle aufweist, um ein solches Tastensignal zu empfangen, zu erkennen und zur Auswahl eines der ausgegebenen Abschnitte zu verwenden.
  • Das erfindungsgemäße Spracherkennungssystem kann vorzugsweise im Wesentlichen mittels geeigneter Software auf einem Computer bzw. in einer Sprachsteuerung eines Geräts realisiert werden. So können z. B. die Spracherkennungseinrichtung und die Dialog-Steuereinrichtung vollständig in Form von Softwaremodulen realisiert werden. Auch eine Einrichtung zur Generierung von Sprache anhand von computerlesbaren Texten, beispielsweise ein sogenannter TTS-Konverter (Text-to-Speech-Konverter), ist ebenfalls mittels geeigneter Software realisierbar. Es ist lediglich erforderlich, dass das System eine Möglichkeit zur Spracheingabe, beispielsweise ein Mikrofon mit einem entsprechenden Verstärker, und zur Sprachausgabe, beispielsweise einen Lautsprecher mit einem entsprechenden Verstärker, umfasst.
  • Dabei kann sich das Spracherkennungssystem auch auf einem über ein übliches Kommunikationsnetz, beispielsweise ein Telefonnetz oder das Internet, erreichbaren Server befinden. In diesem Fall reicht es aus, wenn sich die Spracheingabeeinrichtung und Sprachausgabeeinrichtung, d. h. Mikrofon, Lautsprecher und entsprechende Verstärker, in einem Kommunikationsendgerät des Benutzers befinden, das über das betreffende Netz mit dem Server des Spracherkennungssystems verbunden ist. Weiterhin ist es auch möglich, dass das Spracherkennungssystem nicht innerhalb eines einzelnen Geräts, beispielsweise auf einem einzelnen Server, realisiert ist. Stattdessen können verschiedene Komponenten des Systems auch an verschiedenen Orten angeordnet sein, welche über ein entsprechendes Netzwerk untereinander verbunden sind. Das erfindungsgemäße Spracherkennungssystem kann einer ganz bestimmten Applikation zugeordnet sein, beispielsweise einer Anwendung, welche VoiceMail-Nachrichten innerhalb eines Kommunikationssystems in SMS-Nachrichten oder E-Mails umwandelt. Es ist aber auch möglich, dass das Spracherkennungssystem mehreren verschiedenen Anwendungen als dienstleistendes System zur Verfügung steht und so für mehrere Applikationen eine Schnittstelle zu den Benutzern der jeweiligen Applikation bildet.
  • Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand eines Ausführungsbeispiels näher erläutert. Es zeigen:
  • 1 ein schematisches Blockdiagramm für ein erfindungsgemäßes Spracherkennungssystem,
  • 2 ein Ablaufdiagramm zur Erläuterung des Korrekturverfahrens.
  • Das in 1 dargestellte Ausführungsbeispiel eines erfindungsgemäßen Spracherkennungssystems 1 weist einen Eingang 14 auf, an den ein Mikrofon 2 über einen Verstärker 3 angeschlossen ist. Außerdem weist das Spracherkennungssystem 1 einen Ausgang 16 auf, an den über einen Verstärker 5 ein Lautsprecher 4 zur Ausgabe von Sprachsignalen angeschlossen ist. Das Mikrofon 2 mit dem zugehörigen Verstärker 3 sowie der Lautsprecher 4 mit dem zugehörigen Verstärker 5 sind hierbei Teil eines vom Spracherkennungssystem 1 entfernten Geräts, welches über ein Kommunikationsnetz, beispielsweise ein Telefonnetz, mit dem Spracherkennungssystem 1 in Verbindung steht.
  • Das Kommunikationsendgerät weist außerdem eine Tastatur 6 auf, über die akustische Signale, beispielsweise DTMF-Signale (Dual Tone Multi Frequency), erzeugt werden können, die ebenfalls über den Sprachsignalkanal zum Eingang 14 des Spracherkennungssystems übertragen werden.
  • Vom Mikrofon 2 über den Verstärker 3 am Eingang 14 ankommende Sprachsignale SI werden vom Spracherkennungssystem 1 in einen lesbaren bzw. maschinenlesbaren Text umgewandelt und an eine Applikation 15, beispielsweise zur Versendung von SMS oder E-Mail weitergeleitet, welche dann die Textdaten entsprechend bearbeitet und/oder weiter versendet.
  • Eingangsseitig gelangt das akustisches Signal hierzu zunächst zu einem sog. „Voice-Activity-Detector" (VAD) 12, der das ankommende Signal nur daraufhin überprüft, ob tatsächlich ein Sprachsignal SI eines Benutzers ankommt oder ob es sich bei dem Signal nur um Hintergrundgeräusche etc. handelt. Das Sprachsignal SI wird dann an eine Spracherkennungseinrichtung 7 weitergeleitet, die das Sprachsignal SI zur Erkennung einer darin enthaltenen Sprachinformation in üblicher Weise analysiert und ein mit größter Wahrscheinlichkeit passendes Erkennungsergebnis ermittelt.
  • Erfindungsgemäß ist die Spracherkennungseinrichtung 7 hierbei so ausgerüstet, dass zusätzlich zu dem Erkennungsergebnis, welches mit größter Wahrscheinlichkeit zum zu erkennenden Sprachsignal SI passt, auch eine Anzahl von alternativen Erkennungsergebnissen generiert wird, welche mit den nächstgrößten Wahrscheinlichkeiten zum zu erkennenden Sprachsignal SI passen.
  • Das Erkennungsergebnis, das mit größter Wahrscheinlichkeit zu dem zu erkennenden Sprachsignal SI passt, wird dann in Textform an eine Dialog-Steuereinrichtung 10 übermittelt, welche dieses wahrscheinlichste Erkennungsergebnis wieder an einen Text-To-Speech-Generator (TTS-Generator) 9 weiterleitet. Die alternativen Erkennungsergebnisse können ebenfalls sofort an die Dialog-Steuereinrichtung 10 weitergeleitet und dort zwischengespeichert werden oder von der Spracherkennungseinrichtung 7 in einem separaten Speicher 8 hinterlegt werden, auf welchen die Dialog-Steuereinrichtung 10 jederzeit Zugriff hat. Mit Hilfe des TTS-Generators 9 wird das wahrscheinlichste Erkennungsergebnis dann in ein Sprachsignal umgewandelt und innerhalb einer Prüfprozedur zur Verifikation und/oder Korrektur durch den Benutzer über den Verstärker 5 und den Lautsprecher 4 in Sprachform ausgegeben.
  • Der genaue Ablauf dieser Prüfprozedur wird im Folgenden anhand von 2 erläutert.
  • Das Verfahren beginnt zunächst in Verfahrensschritt I mit der bereits beschriebenen Spracheingabe. Anschließend werden in Verfahrensschritt II die verschiedenen alternativen Erkennungsergebnisse ermittelt und schließlich im Verfahrensschritt III bewertet, um festzustellen, welches Erkennungsergebnis am besten zu dem zu erkennenden Sprachsignal SI passt. Anschließend erfolgt in Verfahrensschritt IV abschnittsweise die Ausgabe des wahrscheinlichsten Erkennungsergebnisses, wobei diese abschnittsweise Ausgabe kontinuierlich erfolgt, so dass für den Benutzer die einzelnen Abschnitte an sich nicht erkennbar sind. Bei den einzelnen Abschnitten kann es sich beispielsweise um die einzelnen Wörter eines Satzes oder eines Worthypothesengraphs oder auch um Satzteile bzw. Teile eines Worthypothesengraphs handeln.
  • Nach jedem Abschnitt wird in Verfahrensschritt V geprüft, ob ein Abbruch der Ausgabe durch den Benutzer erfolgt. Dies ist beispielsweise möglich, indem sich der Benutzer während der Ausgabe des Erkennungsergebnisses entsprechend äußert. Die Sprachaktivität des Benutzers wird von dem VAD 12 sofort erkannt, welcher über ein entsprechendes Steuersignal SC den TTS-Generator 9 stoppt und gleichzeitig das Steuersignal SC auch an die Dialog-Steuereinrichtung 10 übermittelt, so dass diese ebenfalls den Abbruch der Ausgabe durch den Nutzer registriert. Erfolgt kein Abbruch, so wird dann geprüft, ob das Ende des eingegebenen Textes erreicht ist (Verfahrensschritt VI). Ist dies der Fall, so gilt das Erkennungsergebnis als vom Benutzer verifiziert und das Erkennungsergebnis wird an die Applikation 15 übergeben (Verfahrensschritt VII). Ist das Ende des Textes noch nicht erreicht, so wird die Ausgabe des wahrscheinlichsten Erkennungsergebnisses fortgesetzt.
  • Wird dagegen in Verfahrensschritt V ein Abbruch registriert, so wird in Verfahrensschritt VIII zunächst ermittelt, um welchen falschen Abschnitt es sich handelt. Der Einfachheit halber wird hier angenommen, dass es sich um den Abschnitt handelt, der zuletzt ausgegeben wurde, unmittelbar bevor die Ausgabe vom Benutzer unterbrochen wurde.
  • Die Dialog-Steuereinrichtung 10 greift dann – sofern die alternativen Erkennungsergebnisse nicht innerhalb der Dialog-Steuereinrichtung 10 selbst zwischengespeichert wurden – auf den Zwischenspeicher 8 zu und ermittelt die entsprechenden Abschnitte der alternativen Erkennungsergebnisse, welche zu dem in Verfahrensschritt VIII ermittelten falschen Abschnitt korrespondieren. Den entsprechenden Abschnitten bzw. den alternativen Erkennungsergebnissen werden dann Indikatoren, beispielsweise die Ziffern 1 bis 0, zugeordnet.
  • Über den TTS-Generator 9 werden dann die zur Verfügung stehenden alternativen Abschnitte jeweils gemeinsam mit den zugehörigen Indikatoren in Sprachform an den Benutzer ausgegeben (Verfahrensschritt IX).
  • In Verfahrensschritt X kann dann der Benutzer schließlich einen passenden Abschnitt der alternativen Erkennungsergebnisse auswählen, indem er eine dem Indikator entsprechende Zifferntaste eines Tastenfelds 6 drückt. Durch Druck auf diese Taste wird ein DTMF-Signal erzeugt, welches über den Sprachkanal an den Eingang 14 des Spracherkennungssystems 1 geleitet wird. Dieses DTMF-Signal wird dann von einem DTMF-Erkenner 13 erkannt, welcher parallel zur Spracherkennungseinrichtung 7 geschaltet ist. Der DTMF-Erkenner 13 gibt ein entsprechendes Auswahlsignal SA an die Dialog-Steuereinrichtung 10 aus, welche dann eine Korrektureinheit 11 veranlasst, den falsch erkannten Abschnitt durch den betreffenden Abschnitt des ausgewählten alternativen Erkennungsergebnisses zu ersetzen (Verfahrensschritt XI). Die DTMF-Erkennungseinheit 13 kann außerdem bei Erkennung eines DTMF-Signals ein Signal an die Spracherkennungseinrichtung 7 übermitteln, damit diese beispielsweise außer Kraft gesetzt wird und nicht unnötigerweise versucht, das DTMF-Signal zu analysieren.
  • Nach erfolgter Korrektur wird in Verfahrensschritt XII eine Neubewertung aller Erkennungsergebnisse, d. h. des wahrscheinlichsten Erkennungsergebnisses und der alternativen Erkennungsergebnisse durchgeführt. Diese Neubewertung erfolgt vorzugsweise in der Spracherkennungseinrichtung 7, welche ebenfalls in der Lage ist, auf den Zwischen speicher 8 zuzugreifen bzw. welche die notwendigen Daten hierzu von der Dialog-Steuereinrichtung 10 erhält. Bei dieser kontextabhängigen Neubewertung der Erkennungsergebnisse werden alle bereits verifizierten bzw. korrigierten Abschnitte berücksichtigt, d. h. es wird die Tatsache berücksichtigt, dass für diese betreffenden Abschnitte jeweils die Wahrscheinlichkeit 100 % ist, und für alle alternativen Abschnitte dagegen die Wahrscheinlichkeit bei 0 % liegt. Auf diese Weise kann es beispielsweise erreicht werden, dass auf Basis der bereits bekannten Abschnitte solche Hypothesen, die ohne dieses Vorwissen eine hohe Wahrscheinlichkeit haben, verworfen werden und dafür andere Hypothesen, welche ursprünglich eine geringe Wahrscheinlichkeit hatten, nun sehr wahrscheinlich werden. Dadurch wird die Fehlerquote bei der Ausgabe der nachfolgenden Abschnitte deutlich reduziert und somit das gesamte Korrekturverfahren beschleunigt. Zusätzlich oder alternativ können die bereits sicher erkannten Teile der Äußerung des Nutzers auch für eine Adaption der Sprachmodelle und/oder der akustischen Modelle herangezogen werden.
  • Es wird noch einmal darauf hingewiesen, dass es sich bei dem vorbeschriebenen Spracherkennungssystem bzw. Verfahrensablauf nur um ein spezielles Ausführungsbeispiel der Erfindung handelt und der Fachmann die Möglichkeit hat, das Spracherkennungssystem und das Verfahren auf verschiedene Weisen zu modifizieren. So ist es z. B. insbesondere möglich und auch sinnvoll, innerhalb des Verfahrens einen Schritt einzuführen, dass der Benutzer, sofern er keinen der Abschnitte der alternativen Erkennungsergebnisse für richtig hält, die Gelegenheit erhält, den Abschnitt neu zu sprechen. Ebenso ist es auch möglich, dass anstelle der Auswahl mittels einer DTMF-fähigen Tastatur 6 die Auswahl mittels Spracheingabe erfolgt oder dass die Tastatur andere Signale aussendet, welche über einen separaten Datenkanal an das Spracherkennungssystem 1 übermittelt werden, das diese Signale dann entsprechend weiter bearbeiten kann. Ebenso kann auch der Abbruch der Sprachausgabe innerhalb der Prüfprozedur mittels eines bestimmten DTMF-Signals oder dergl. erfolgen.

Claims (11)

  1. Verfahren zur Spracherkennung, bei welchem ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird und ein mit einer größten Wahrscheinlichkeit passendes Erkennungsergebnis innerhalb einer Prüfprozedur wieder in ein Sprachsignal umgewandelt und zur Verifikation und/oder Korrektur an den Nutzer ausgegeben wird, dadurch gekennzeichnet, dass bei der Analyse eine Anzahl von alternativen Erkennungsergebnissen generiert wird, welche mit den nächstgrößten Wahrscheinlichkeiten zu dem zu erkennenden Sprachsignal passen, und dass die Ausgabe innerhalb der Prüfprozedur derart erfolgt, dass der Benutzer bei einer Fehlerhaftigkeit des ausgegebenen Erkennungsergebnisses die Ausgabe unterbrechen kann, und dann automatisch für einen vor einer Unterbrechung zuletzt ausgegebenen Abschnitt des betreffenden Erkennungsergebnisses jeweils entsprechende Abschnitte der alternativen Erkennungsergebnisse für eine Auswahl durch den Benutzer ausgegeben werden, und schließlich der betreffende Abschnitt im ausgegebenen Erkennungsergebnis auf Basis des entsprechenden Abschnitts eines ausgewählten alternativen Erkennungsergebnisses korrigiert wird und dann die Prüfprozedur für verbleibende nachfolgende Abschnitte des zu erkennenden Sprachsignals fortgesetzt wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass bei der Ausgabe des Erkennungsergebnisses innerhalb der Prüfprozedur die Sprachaktivität des Benutzers permanent überwacht wird und bei Empfang eines Sprachsignals des Benutzers die Ausgabe unterbrochen wird.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass, falls kein Abschnitt der alternativen Erkennungsergebnisse ausgewählt wird, ein Anforderungssignal an den Benutzer ausgegeben wird, den betreffenden Abschnitt für eine Korrektur neu zu sprechen.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass jedem alternativen Erkennungsergebnis ein Indikator zugeordnet wird und bei der Prüfprozedur die betreffenden Abschnitte der alternativen Erkennungsergebnisse jeweils gemeinsam mit dem zugehörigen Indikator ausgegeben werden und die Auswahl eines Abschnitts eines alternativen Erkennungsergebnisses durch eine Eingabe des Indikators erfolgt.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass der Indikator eine Ziffer oder ein Buchstabe ist.
  6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass dem Indikator ein Tastensignal eines Kommunikationsendgeräts zugeordnet ist und die Auswahl eines Abschnitts eines alternativen Erkennungsergebnisses durch Betätigung der entsprechenden Taste des Kommunikationsendgeräts erfolgt.
  7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass nach einer Korrektur eines innerhalb der Prüfprozedur ausgegebenen Abschnitts die verschiedenen Erkennungsergebnisse bezüglich ihrer Wahrscheinlichkeiten, mit denen sie jeweils zu dem zu erkennenden Sprachsignal passen, unter Berücksichtigung des zuletzt korrigierten Abschnitts und/oder der bereits zuvor bestätigen oder korrigierten Abschnitte neu bewertet werden und die Prüfprozedur mit der Ausgabe der nachfolgenden Abschnitte des Erkennungsergebnisses fortgesetzt wird, welches nach der Neubewertung die höchste Wahrscheinlichkeit aufweist.
  8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Prüfprozedur erst nach Abschluss der Eingabe eines vollständigen Texts durch den Benutzer erfolgt.
  9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Prüfprozedur bereits nach Eingabe eines Teils eines vollständigen Texts durch den Benutzer erfolgt.
  10. Spracherkennungssystem (1) mit – einer Vorrichtung (2) zur Erfassung eines Sprachsignals eines Benutzers – einer Spracherkennungseinrichtung (7), um das erfasste Sprachsignal (SI) zur Erkennung einer im Sprachsignal (SI) enthaltenen Sprachinformation zu analysieren und ein mit einer größten Wahrscheinlichkeit passendes Erkennungsergebnis zu ermitteln, – und einer Sprachausgabeeinrichtung (9), um das wahrscheinlichste Erkennungsergebnis innerhalb einer Prüfprozedur wieder in eine Sprachinformation umzuwandeln und zur Verifikation und/oder Korrektur an den Nutzer auszugeben, dadurch gekennzeichnet, dass die Spracherkennungseinrichtung (7) derart ausgebildet ist, dass sie bei der Analyse eine Anzahl von alterativen Erkennungsergebnissen generiert, welche mit den nächstgrößten Wahrscheinlichkeiten zu dem zu erkennenden Sprachsignal (SI) passen, und dass das Spracherkennungssystem (1) – Mittel (12) zur Unterbrechung der Ausgabe innerhalb der Prüfprozedur durch den Benutzer, – eine Dialog-Steuereinrichtung (10), welche automatisch für einen vor einer Unterbrechung zuletzt ausgegebenen Abschnitt des betreffenden Erkennungsergebnisses jeweils entsprechende Abschnitte der alternativen Erkennungsergebnisse ausgibt, – Mittel (6, 13) zur Auswahl eines der ausgegebenen Abschnitte der alternativen Erkennungsergebnisse – und eine Korrektureinheit (11) zur Korrektur des betreffenden Abschnitts im zunächst ausgegebenen Erkennungsergebnis auf Basis des entsprechenden Abschnitts eines ausgewählten alternativen Erkennungsergebnisses aufweist.
  11. Computerprogrammprodukt mit Programmcode-Mitteln, um alle Schritte eines Verfahrens nach einem der Ansprüche 1 bis 9 auszuführen, wenn das Programm auf einem Computer ausgeführt wird.
DE10251112A 2002-11-02 2002-11-02 Verfahren und System zur Spracherkennung Withdrawn DE10251112A1 (de)

Priority Applications (9)

Application Number Priority Date Filing Date Title
DE10251112A DE10251112A1 (de) 2002-11-02 2002-11-02 Verfahren und System zur Spracherkennung
PCT/IB2003/004717 WO2004042699A1 (en) 2002-11-02 2003-10-24 Method and system for speech recognition
US10/532,918 US20050288922A1 (en) 2002-11-02 2003-10-24 Method and system for speech recognition
CNB2003801025097A CN100524459C (zh) 2002-11-02 2003-10-24 用于语音识别的方法和***
AU2003274432A AU2003274432A1 (en) 2002-11-02 2003-10-24 Method and system for speech recognition
AT03758411T ATE421748T1 (de) 2002-11-02 2003-10-24 Verfahren und anordnung zur spracherkennung
EP03758411A EP1561204B1 (de) 2002-11-02 2003-10-24 Verfahren und anordnung zur spracherkennung
DE60325997T DE60325997D1 (de) 2002-11-02 2003-10-24 Verfahren und anordnung zur spracherkennung
JP2004549439A JP4960596B2 (ja) 2002-11-02 2003-10-24 音声認識の方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10251112A DE10251112A1 (de) 2002-11-02 2002-11-02 Verfahren und System zur Spracherkennung

Publications (1)

Publication Number Publication Date
DE10251112A1 true DE10251112A1 (de) 2004-05-19

Family

ID=32115142

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10251112A Withdrawn DE10251112A1 (de) 2002-11-02 2002-11-02 Verfahren und System zur Spracherkennung
DE60325997T Expired - Lifetime DE60325997D1 (de) 2002-11-02 2003-10-24 Verfahren und anordnung zur spracherkennung

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE60325997T Expired - Lifetime DE60325997D1 (de) 2002-11-02 2003-10-24 Verfahren und anordnung zur spracherkennung

Country Status (8)

Country Link
US (1) US20050288922A1 (de)
EP (1) EP1561204B1 (de)
JP (1) JP4960596B2 (de)
CN (1) CN100524459C (de)
AT (1) ATE421748T1 (de)
AU (1) AU2003274432A1 (de)
DE (2) DE10251112A1 (de)
WO (1) WO2004042699A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004029873B3 (de) * 2004-06-16 2005-12-29 Deutsche Telekom Ag Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme
DE102006058758A1 (de) * 2006-12-12 2008-06-19 Deutsche Telekom Ag Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912186B2 (en) * 2004-10-20 2011-03-22 Microsoft Corporation Selectable state machine user interface system
US7551727B2 (en) 2004-10-20 2009-06-23 Microsoft Corporation Unified messaging architecture
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
JP5610197B2 (ja) * 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
CN102723080B (zh) * 2012-06-25 2014-06-11 惠州市德赛西威汽车电子有限公司 一种语音识别测试***及方法
US10229676B2 (en) * 2012-10-05 2019-03-12 Avaya Inc. Phrase spotting systems and methods
CN102945671A (zh) * 2012-10-31 2013-02-27 四川长虹电器股份有限公司 语音识别方法
KR20140065897A (ko) * 2012-11-22 2014-05-30 삼성전자주식회사 전력 부하 모니터링 장치 및 방법
US9620115B2 (en) 2013-01-03 2017-04-11 Telenav, Inc. Content delivery system with barge-in mechanism and method of operation thereof
CN104618456A (zh) * 2015-01-13 2015-05-13 小米科技有限责任公司 信息发布方法及装置
US9773483B2 (en) * 2015-01-20 2017-09-26 Harman International Industries, Incorporated Automatic transcription of musical content and real-time musical accompaniment
KR102561711B1 (ko) * 2016-02-26 2023-08-01 삼성전자주식회사 컨텐트를 인식하는 방법 및 장치
DE102016115243A1 (de) * 2016-04-28 2017-11-02 Masoud Amri Programmieren in natürlicher Sprache
US11151986B1 (en) * 2018-09-21 2021-10-19 Amazon Technologies, Inc. Learning how to rewrite user-specific input for natural language understanding
KR102368193B1 (ko) * 2018-10-29 2022-03-02 어니컴 주식회사 음성합성을 이용한 음성인식기능 검증 방법 및 장치
CN110853639B (zh) * 2019-10-23 2023-09-01 天津讯飞极智科技有限公司 语音转写方法及相关装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2585547B2 (ja) * 1986-09-19 1997-02-26 株式会社日立製作所 音声入出力装置における入力音声の修正方法
JPH0351898A (ja) * 1989-07-20 1991-03-06 Sanyo Electric Co Ltd 音声認識装置
JPH0854894A (ja) * 1994-08-10 1996-02-27 Fujitsu Ten Ltd 音声処理装置
JPH09114482A (ja) * 1995-10-17 1997-05-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識のための話者適応化方法
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
JPH10143503A (ja) * 1996-11-08 1998-05-29 Nec Corp 音声ワードプロセッサ
US6154526A (en) * 1996-12-04 2000-11-28 Intellivoice Communications, Inc. Data acquisition and error correcting speech recognition system
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6219628B1 (en) * 1997-08-18 2001-04-17 National Instruments Corporation System and method for configuring an instrument to perform measurement functions utilizing conversion of graphical programs into hardware implementations
JPH11338493A (ja) * 1998-05-26 1999-12-10 Sony Corp 情報処理装置および方法、並びに提供媒体
US6405170B1 (en) * 1998-09-22 2002-06-11 Speechworks International, Inc. Method and system of reviewing the behavior of an interactive speech recognition application
US6219638B1 (en) * 1998-11-03 2001-04-17 International Business Machines Corporation Telephone messaging and editing system
JP2000250587A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 音声認識装置及び音声認識翻訳装置
JP3980791B2 (ja) * 1999-05-03 2007-09-26 パイオニア株式会社 音声認識装置を備えたマンマシンシステム
EP1238250B1 (de) * 1999-06-10 2004-11-17 Infineon Technologies AG Spracherkennungsverfahren und -einrichtung
JP2001005809A (ja) * 1999-06-25 2001-01-12 Toshiba Corp 文書作成装置、文書作成方法、及び文書作成プログラムが記録された記録媒体
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别***
JP2001100786A (ja) * 1999-09-28 2001-04-13 Canon Inc 音声認識方法、装置及び記憶媒体
JP2003518266A (ja) * 1999-12-20 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのテキスト編集用音声再生
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
ATE364219T1 (de) * 2000-09-08 2007-06-15 Koninkl Philips Electronics Nv Spracherkennungsverfahren mit ersetzungsbefehl
EP1189203B1 (de) 2000-09-18 2006-05-17 L &amp; H Holdings USA, Inc. Homophonewahl in der Spracherkennung
WO2002080144A1 (en) * 2001-03-29 2002-10-10 Koninklijke Philips Electronics N.V. Text editing for recognized speech during synchronous playback
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US6910012B2 (en) * 2001-05-16 2005-06-21 International Business Machines Corporation Method and system for speech recognition using phonetically similar word alternatives
US6963834B2 (en) * 2001-05-29 2005-11-08 International Business Machines Corporation Method of speech recognition using empirically determined word candidates
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
US7260534B2 (en) * 2002-07-16 2007-08-21 International Business Machines Corporation Graphical user interface for determining speech recognition accuracy

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004029873B3 (de) * 2004-06-16 2005-12-29 Deutsche Telekom Ag Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme
DE102006058758A1 (de) * 2006-12-12 2008-06-19 Deutsche Telekom Ag Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung
DE102006058758B4 (de) * 2006-12-12 2018-02-22 Deutsche Telekom Ag Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung

Also Published As

Publication number Publication date
AU2003274432A1 (en) 2004-06-07
WO2004042699A1 (en) 2004-05-21
EP1561204B1 (de) 2009-01-21
DE60325997D1 (de) 2009-03-12
JP2006505002A (ja) 2006-02-09
ATE421748T1 (de) 2009-02-15
EP1561204A1 (de) 2005-08-10
US20050288922A1 (en) 2005-12-29
JP4960596B2 (ja) 2012-06-27
CN100524459C (zh) 2009-08-05
CN1708783A (zh) 2005-12-14

Similar Documents

Publication Publication Date Title
DE10251112A1 (de) Verfahren und System zur Spracherkennung
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE60222093T2 (de) Verfahren, modul, vorrichtung und server zur spracherkennung
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
US9230562B2 (en) System and method using feedback speech analysis for improving speaking ability
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE10220524B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE19510083C2 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
DE19956747C1 (de) Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
EP1077448B1 (de) Spracherkennung unter Berücksichtigung der Lautstärkeschwankungen
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE10220521B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
EP1590797B1 (de) Kommunikationssystem, kommunikationsendeinrichtung und vorrichtung zum erkennen fehlerbehafteter text-nachrichten
EP2047668B1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
WO2017157684A1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE102010040553A1 (de) Spracherkennungsverfahren
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
EP2034472A1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
EP2907048B1 (de) Kraftwagen mit einem sprachübersetzungssystem
DE60022976T2 (de) Spracherkennungseinrichtung mit transfermitteln
EP1659571A2 (de) Sprachdialogsystem und Verfahren zum Betreiben

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee