DE69324629T2 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents

Verfahren und Vorrichtung zur Spracherkennung

Info

Publication number
DE69324629T2
DE69324629T2 DE69324629T DE69324629T DE69324629T2 DE 69324629 T2 DE69324629 T2 DE 69324629T2 DE 69324629 T DE69324629 T DE 69324629T DE 69324629 T DE69324629 T DE 69324629T DE 69324629 T2 DE69324629 T2 DE 69324629T2
Authority
DE
Germany
Prior art keywords
word
user
spoken
value
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69324629T
Other languages
English (en)
Other versions
DE69324629D1 (de
Inventor
Jukka Tapio Ranta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Mobile Phones Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Mobile Phones Ltd filed Critical Nokia Mobile Phones Ltd
Application granted granted Critical
Publication of DE69324629D1 publication Critical patent/DE69324629D1/de
Publication of DE69324629T2 publication Critical patent/DE69324629T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Spracherkennung, insbesondere ein Verfahren und ein System für ein durch Sprache steuerbares Telefon, wobei ein Wert eines Bezugsworts durch eine Spracherkennungseinrichtung auf Grundlage eines von einem Benutzer gesprochenen Worts berechnet wird und eine Erkennungsauflösung auf Grundlage diese Werts erstellt wird.
  • Telefone sind im Allgemeinen mit einem Handapparat versehen, den der Benutzer in der Hand hält, während er spricht. Dies gilt auch für den Fall, dass Funktelefone wie Mobiltelefone verwendet werden. Bei einem derartigen Telefon bleibt nur eine Hand frei, was beim Fahren zu Schwierigkeiten führen kann. Eine Lösung hinsichtlich dieses Problems besteht in einem im Auto angebrachten gesonderten Mikrophon sowie einem gesonderten Lautsprecher, der auf eine geeignete Lautstärke einzustellen ist und mit geeignetem Abstand vom Benutzer positioniert ist, so dass der Benutzer den anderen Teilnehmer deutlich hören kann. Selbst bei diesem Design muss der Benutzer eine seiner Hände verwenden, um einen Anruf zu tätigen, d. h. zum Wählen der Nummer der anderen Partei oder zum Reagieren auf einen eingehenden Anruf oder zum Beenden eines Anrufs.
  • Damit sich ein Telefonbenutzer auf das Fahren konzentrieren kann, wurden sogenannte Freisprechtelefone entwickelt, bei denen die Funktionen durch Sprache steuerbar sind. Hierbei können alle Telefonfunktionen durch Sprache gesteuert werden, wie das Ein/Ausschalten, Senden/Empfangen, Sprachlautstärke-Steuerung, Wählen einer Telefonnummer, Antworten auf einen Telefonanruf, und so kann sich der Benutzer auf das Fahren konzentrieren. Der Fahrer muss seine Hände nicht vom Lenkrad wegnehmen und seine Augen nicht von der Straße ablenken, weswegen ein Freisprechteiefon die Fahrsicherheit beträchtlich erhöht.
  • Ein Nachteil in Zusammenhang mit einem sprachgesteuerten Telefon besteht darin, dass die Spracherkennung nicht völlig perfekt ist. Durch die Fahrzeugumgebung hervorgerufene Hintergrundgeräusche sind stark, weswegen die Spracherkennung schwieriger ist. Es erfolgten etliche Anstrengungen zum Vermarkten der Spracherkennungsfähigkeit in Zusammenhang mit Mobiltelefonen, jedoch war angesichts der Unzuverlässigkeit von sprachgesteuerten Telefonen das Interesse von Benutzern an solchen unbedeutend. Die Erkennungsgenauigkeit von in der Technik bekannten Spracherkennungseinrichtungen ist nicht sehr gut, insbesondere unter ungünstigen Bedingungen, z. B. in einem fahrenden Fahrzeug, in dem die starken Hintergrundgeräusche eine zuverlässige Worterkennung im Wesentlichen verhindern. Fehlerhafte Erkennungsauflösungen verursachen im Allgemeinen die größten Unbequemlichkeiten beim Realisieren eines Benutzer-Kommunikationssystems, da sie unerwünschte Funktionen starten können, wie die Beendigung von Anrufen in deren Verlauf, was aus dem Gesichtspunkt des Benutzers besonders unzweckdienlich ist. Die üblichsten Konsequenzen fehlerhaften Sprachinterpretierung bestehen im Wählen einer falschen Nummer. Aus diesem Grund sind Benutzerkommunikationen so konzipiert, dass durch eine Spracherkennungseinrichtung keinerlei Erkennungsauflösung erfolgt, wenn keine ausreichende Sicherheit hinsichtlich eines vom Benutzer gesprochenen Worts erzielt ist, wobei in derartigen Fällen der Benutzer im Allgemeinen dazu aufgefordert wird, den geäußerten Befehl zu wiederholen.
  • Nahezu alle Spracherkennungseinrichtungen beruhen auf dem Funktionsprinzip, dass ein von einem Benutzer gesprochenes Wort durch ein ziemlich kompliziertes Verfahren mit zuvor in den Speicher der Spracherkennungseinrichtung eingespeicherten Bezugswörtern verglichen wird. Spracherkennungseinrichtungen berechnen im Allgemeinen eine jedem Bezugswort entsprechende Zahl, die anzeigt, in welchem Ausmaß das vom Benutzer gesprochene Wort dem Bezugswort ähnelt. Abschließend erfolgt eine Erkennungsauflösung auf Grundlage der Zahlen in solcher Weise, dass für die Auflösung dasjenige Bezugswert gewählt wird, dem das geäußerte Wort am meisten ähnelt. Eines der bekanntesten Verfahren für den Vergleich zwischen einem gesprochenen Wort und den Bezugswörtern ist das Dynamic-Time-Warping(DTW)-Verfahren und das statistische Hidden-Markov-Modell(HMM)-Verfahren.
  • Sowohl beim DTW- als auch beim HMM-Verfahren wird ein unvertrautes Sprachmuster mit den bekannten Bezugsmustern verglichen. Beim Dynamic-Time-Warping wird ein Sprachmuster in eine Anzahl von Rahmen unterteilt, und es wird der örtliche Abstand zwischen dem Sprachteil in jedem Rahmen und dem dem Bezugsmuster entsprechenden Sprachteil berechnet. Auf Grundlage der auf diese Weise hergeleiteten örtlichen Abstände wird durch einen DTW-Algorithmus nach dem minimalen Pfad zwischen dem Anfangs- und dem Endpunkt des Worts gesucht. So kann durch Dynamic-Time-Warping ein Abstand zwischen dem gesprochenen Wort und den Bezugswörtern erhalten werden. Beim HMM-Verfahren werden Sprachmuster erzeugt, und dieser Sprachmuster-ErzeugungsschrLtt wird durch ein Statusänderungsmuster gemäß dem Markov-Verfahren strukturiert. Dieses Statusänderungsmuster ist so das HMM. Spracherkennung für die empfangenen Sprachmuster erfolgt nun durch Definieren der Beobachtungswahrscheinlichkeit für diese Sprachmuster unter Zuhilfenahme des HMM-Musters. Unter Verwendung des HMM bei der Spracherkennung wird als erstes ein HMM- Muster für jedes zu erkennende Wort, d. h. für jedes Bezugswort, erzeugt. Die HMM-Muster werden in den Speicher der Spracherkennungseinrichtung eingespeichert. Nachdem die Spracherkennungseinrichtung das Sprachmuster empfangen hat, wird für jedes im Speicher gespeicherte HMM-Muster eine Beobachtungswahrscheinlichkeit berechnet, und im Ergebnis des Erkennungaprozesses wird ein Wort für dasjenige HMM-Muster geliefert, für das die höchste Beobachtungswahrscheinlichkeit erhalten wurde. Anders gesagt, wird für jedes Bezugswort die Wahrscheinlichkeit berechnet, gemäß der es das vom Benutzer gesprochene Wort wäre. Die oben genannte höchste Beobachtungswahrscheinlichkeit beschreibt die Gleichheit des empfangenen Sprachmusters mit dem nächstkommenden HMM-Muster, d. h. dem nächstkommenden Bezugssprachmuster.
  • So berechnet die Spracherkennungseinrichtung bei den aktuellen Systemen eine bestimmte Zahl für die Bezugswörter auf Grundlage des von einen Benutzer gesprochenen Worts; beim DTW-System ist die Nummer der Abstand zwischen Wörtern, und beim HMM-Verfahren zeigt die Nummer die Wahrscheinlichkeit der Gleichheit der Wörter an. Wenn das HMM-Verfahren verwendet wird, wird im Allgemeinen für die Spracherkennungseinrichtungen eine vorgegebenen Schwellenwahrscheinlichkeit definiert, die das wahrscheinlichste Bezugswort erreichen muss, um eine Erkennungsauflösung zu liefern. Ein anderer Faktor, der die Erkennungsauflösung beeinflusst, könnte z. B. die Differenz zwischen den Wahrscheinlichkeiten für das wahrscheinlichste Wort und das zweitwahrscheinlichste Wort sein; es ist zu erwarten, dass sie ausreichend groß ist, damit eine Erkennungsauflösung erfolgen kann. Wenn eine Erkennungsauflösung auf Grundlage der Erkennungswahrscheinlichkeit für das wahrscheinlichste Wort erfolgt, soll die Irrungswahrscheinlichkeit höchstens z. B. 0,1 betragen. Daher ist es möglich, dass dann, wenn Hintergrundgeräusche stark sind, für ein Bezugswort im Speicher, wie das Bezugswort "1", auf Grundlage eines vom Benutzer geäußerten Befehls bei jedem Versuch z. B. 0,8 als größte Wahrscheinlichkeit beim Vergleich mit den anderen Bezugswörtern erhalten wird. Da die Wahrscheinlichkeit unter der Schwellenwahrscheinlichkeit von 0,9 bleibt, wird das Wort nicht akzeptiert und es kann erforder lich sein, dass der Benutzer den Befehl mehrfach äußern muss, bevor die Grenze der Erkennungswahrscheinlichkeit überschritten wird und die Spracherkennungseinrichtung den Befehl akzeptiert, obwohl die Wahrscheinlichkeit sehr dicht am Akzeptierwert gelegen haben kann. Vom Gesichtspunkt des Benutzers her ist dies höchst störend. Ein korrektes Erkennungsergebnis kann beim ersten Versuch unter Verwendung der aktuellen Technik ziemlich häufig dann erzielt werden, wenn die Geschwindigkeit eines Fahrzeugs unter 80 bis 90 km pro Stunde liegt, abhängig von der Geräuschisolierung des Wagens und der Sprechweise des Benutzers. Bei höheren Geschwindigkeiten nimmt jedoch die Funktion der Erkennungseinrichtung sehr stark ab, und in den meisten Fahrzeugen arbeitet die Spracherkennungseinrichtung bei Geschwindigkeiten über 100 km pro Stunde nicht mehr ausreichend zuverlässig dafür, dass sie als nützlich angesehen werden könnte. Insbesondere bei derartigen Geschwindigkeiten ist aber das Erfordernis, die Verkehrssicherheit zu erhöhen, größer als bei niedrigeren Geschwindigkeiten.
  • Das US-Patent Nr. 4 783 803 offenbart ein Spracherkennungssystem, das die akustische Ähnlichkeit zwischen einem gesprochenen Wort und einem Bezugswort sowie eine Sprachmodellbewertung auf Grundlage zuvor erkannter Wörter kombiniert. Ein derartiges bekanntes System nutzt die in einem Sprachmodell enthaltene A-priori-Wahrscheinlichkeit, dass ein gegebenes Wort vom Benutzer gesprochen wird, wenn ein zuvor erkanntes Wort oder mehrere vorgegeben sind. Das US-Patent Nr. 5 003 603 offenbart ein Spracherkennungssystem, bei dem dann, wenn ein gesprochenes Wort gemäß Vergleichskriterien nicht mittels irgendeines Bezugsworts erkannt werden kann, das System den Benutzer dazu auffordert, die Äußerung zu wiederholen.
  • Gemäß einer ersten Erscheinungsform der Erfindung ist eine Spracherkennungsvorrichtung mit folgendem geschaffen einer Vergleichseinrichtung zum Vergleichen eines von einem Benutzer gesprochenen ersten Worts mit mindestens einem vorbestimmten Bezugswort; einer Berechnungseinrichtung zum Berechnen eines Werts, der der Ähnlichkeit zwischen dem vom Benutzer gesprochenen ersten Wort und dem mindestens einen vorbestimmten Bezugswort entspricht; einer Auswähleinrichtung zum Auswählen des Werts, der der größten Wahrscheinlichkeit entspricht; dadurch gekennzeichnet, dass die Berechnungseinrichtung so ausgebildet ist, dass sie den ausgewählten Weist beim Berechnen eines neuen Werts entsprechend der Ähnlichkeit zwischen einem zweiten vom Benutzer gesprochenen Wort und dem mindestens einen Bezugswort verwendet, wenn der ausgewählte Wert einem vorbestimmten Kriterium genügt.
  • Gemäß einer zweiten Erscheinungsform der Erfindung ist ein Spracherkennungsverfahren geschaffen, das folgendes umfasst: Vergleichen eines von einem Benutzer gesprochenen ersten Worts mit mindestens einem vorbestimmten Bezugswort; Berechnen eines Werts, der der Ähnlichkeit zwischen dem vom Benutzer gesprochenen ersten Wort und dem mindestens einen vorbestimmten Bezugswort entspricht; Auswählen des Werts, der d er größten Ähnlichkeit entspricht; dadurch gekennzeichnet, dass der ausgewählte Wert dazu verwendet wird, einen neuen Wert entsprechend der Ähnlichkeit zwischen einem vom Benutzer gesprochenen zweiten Wort und dem mindestens einen Bezugswort zu berechnen, wenn der ausgewählte Wert einem vorbestimmten Kriterium genügt. Die Erfindung hat den Vorteil, dass eine zuverlässigere Erkennung von Wörtern selbst dann möglich ist, wenn die Ähnlichkeit zwischen gesprochenen Wörtern und Bezugswörtern nicht hoch ist.
  • Bei einer Ausführungsform gemäß der ersten und zweiten Erscheinungsform der Erfindung ist mehr als ein Bezugswort vorhanden. Dies hat den Vorteil, dass der Benutzer bei einer die Erfindung enthaltenden Steuerungsvorrichtung, die über mehr als eine sprachgesteuerte Funktion verfügt, Sprachsteuerung verwenden kann.
  • Bei einer bevorzugten Ausführungsform der ersten und zweiten Erscheinungsform der Erfindung ist das vom Benutzer gesprochene zweite Wort dasselbe wie das von ihm gesprochene erste Wort. Dias hat den Vorteil, dass eine zweite Berechnung nur dann ausgeführt wird, wenn das zweite gesprochene Wort mit dem ersten gesprochenen Wort übereinstimmt, um dadurch eine unnötige Verzögerung bei der Erkennung gesprochener Wörter zu vermeiden.
  • Bei einem alternativen Ausführungsbeispiel der ersten und zweiten Ausführungsform der Erfindung wird der ausgewählte Wert nur dann beim Berechnen eines neuen Werts verwendet, wenn das vom Benutzer gesprochene zweite Wort dasselbe wie das vom ihm gesprochene erste Wort ist. Dies hat den Vorteil, dass unnötige Berechnungen vermieden sind und dass ein voriger Wert nur dazu verwendet wird, die Erkennung eines wiederholt vom Benutzer gesprochenen Worts zu unterstützen.
  • Vorzugsweise besteht das vorbestimmte Kriterium darin, dass der ausgewählte Wert kleiner als ein vorbestimmter Schwellenwert ist oder alternativ das vorbestimmte Kriterium darin besteht, dass die Differenz zwischen dem ausgewählten Wert und einem anderen Wert, der der Ähnlichkeit zwischen dem ersten vom Benutzer gesprochenen Wort und einem anderen Bezugswort entspricht, kleiner als ein vorbestimmter Schwellenwert ist. Dies hat den Vorteil, dass weitere Äußerungen und Berechnungen nur dann erforderlich sind, wenn ein gesprochenes Wort nicht zuverlässig erkannt werden kann oder wenn ein gesprochenes Wort zwei verschiedenen Bezugswörtern ähnlich ist.
  • In geeigneter Weise wird eine Wiederholung des vom Benutzer gesprochenen ersten Worts dann angefordert, wenn der ausgewählte Wert das vorbestimmte Kriterium erfüllt, was dem Benutzer deutlich anzeigt, dass ein gesprochenes Wort nicht erkannt wurde und dass er das Wort wiederholen muss.
  • Beim erfindungsgemäßen Verfahren berechnet eine Spracherkennungseinrichtung die Erkennungswahrscheinlichkeiten für Bezugswörter, und sie erzeugt eine Erkennungsauflösung, wenn eine der Wahrscheinlichkeiten einen vorbestimmten Schwellenwert überschreitet; andernfalls wird der Benutzer dazu aufgefordert, das Wort erneut zu sprechen, und dafür erfolgt eine Erkennungsauflösung, wenn die Wahrscheinlichkeit für eines der Bezugswörter kleiner als ein vorbestimmter Schwellenwert ist; andernfalls wird eine neue Wahrscheinlichkeit unter Verwendung der von der Spracherkennungseinrichtung berechneten aktuellen Wahrscheinlichkeit und einer Wahrscheinlichkeit, die einmal oder mehrere Male zuvor berechnet wurde, unter der Bedingung berechnet, dass es sich um Wahrscheinlichkeiten über ein und dasselbe Bezugswort handelt, wobei eine Erkennungsauflösung dann erzeugt wird, wenn die Wahrscheinlichkeit einen vorbestimmten Schwellenwert überschreitet. Solange der vorbestimmte Schwellenwert nicht durch die durch die Spracherkennungseinrichtung berechnete Wahrscheinlichkeit überschritten ist, wird die berechnete Wahrscheinlichkeit in den Speicher eingespeichert, der Benutzer wird dazu aufgefordert, das Wort erneut zu sprechen, und der im Speicher gespeicherte Wert wird zusammen mit der folgenden Wahrscheinlichkeit / denn folgenden Wahrscheinlichkeiten verwendet, wie sie für dasselbe Wort von der Spracherkennungseinrichtung berechnet wurden, um eine neue Wahrscheainlichkeit zu berechnen, die auf Grundlage der Wahrscheinlichkeiten zu berechnen ist (um eine Erkennungsauflösung zu erzeugen, wenn, unter Berücksichtigung der vorangehenden Wahrscheinlichkeiten, die Schwellenwahrscheinlichkeit erreicht ist). Danach wird, wenn die Spracherkennungseinrichtung eine den Schwellenwert überschreitende Wahrscheinlichkeit berechnet, oder dieser unter Berücksichtigung der vorangehenden Wahrscheinlichkeiten erreicht wird, der Speicher rückgesetzt. Auch dann, wenn eine Wiederholung eines vorigen Worts fraglich ist, wird der Speicher vor einer Erkennungsauflösung rückgesetzt. Der Speicher wird auch dann rückgesetzt, wenn die Spannung in der Vorrichtung eingeschaltet wird und wenn ein Vorgang unterbrochen wird. Die Erfindung wird unten nur beispielhaft und unter Bezugnahme auf die beigefügten Zeichnungen im einzelnen beschrieben.
  • Fig. 1 zeigt ein Prinzipflussdiagramm für die beim Verfahren auszuführenden Schritte; und
  • Fig. 2 zeigt ein Blockdiagramm zur Realisierung des Verfahrens in einem System, in dem Spracherkennung verwendet wird.
  • In Fig. 1 ist das erfindungsgemäße Spracherkennungsverfahren klargestellt. Das Verfahren steht nicht in unmittelbarem Zusammenhang mit dem internen, bei der Spracherkennung verwendeten Verfahren der Spracherkennungseinrichtung, sondern unter Verwendung des Verfahrens wird das Erzielen einer Erkennungsauflösung beschleunigt und die Erkennungsgenauigkeit wird verbessert, ohne dass den Eigenschaften der vorliegenden Spracherkennungseinrichtung Aufmerksamkeit zu schenken wäre. Wenn die Spannung in der Einrichtung eingeschaltet wird 1, wird der Speicher rückgesetzt und es wird erwartet, dass eine Äußerung 2 von einem Benutzer erfolgt, wodurch die Spracherkennungseinrichtung Wahrscheinlichkeiten für alle Bezugswörter und als Erkennungsergebnis berechnet 2, und sie das Bezugswort liefert, das die größte Wahrscheinlichkeit besitzt, d. h. dasjenige Bezugswort, das dem vom Benutzer gesprochenen Wort am meisten ähnelt. Wenn die Wahrscheinlichkeit für das Bezugswort einen vorbestimmten Schwellenwert oder den Schwellenwert für die Wahrscheinlichkeiten des wahrscheinlichsten und des zweitwahrscheinlichsten Worts, die im vorliegenden Zusammenhang gemeinsam als Schwellenweite bei der Spracherkennung bezeichnet werden, nicht überschreitet, wird herausgefunden 3, ob das untersuchte Wort eine Wiederholung des vorangegangenen Worts ist. Wenn eine Wiederholung eines derartigen vorangegangenen Worts nicht zur Debatte steht, wird der Speicher rückgesetzt 4a. Wenn der Benutzer das Wort nicht öfter als einmal gesprochen hat, enthält der Speicher während der ersten Berechnungsrunde nichts, wodurch auch keine neue Wahrscheinlichkeit berechnet wird sondern eine Erkennungsauflösung erzeugt wird 6a, und wobei, wenn keine zuverlässige Erkennung vorgenommen werden kann 6b, die durch die Spracherkennungseinrichtung berechnete Wahrscheinlichkeit in den Speicher eingespeichert wird 7 und auf eine anschließende Äußerung des Benutzers gewartet wird. Wenn dagegen das Wort eine Wiederholung des vorigen Worts ist, wird eine neue Wahrscheinlichkeit berechnet 5, wozu bei der Berechnung der Wahrscheinlichkeit ein im Speicher gespeicherter voran gegangener Erkennungsversuch genutzt wird, und auf Grundlage derselben wird eine Erkennungsauflösung erzeugt 6a, 6b. Wenn die neue Wahrscheinlichkeit dadurch erhalten wird, dass die Berechnungen 5 den Schwellenwert überschreiten, d. h., dass eine zuverlässige Erkennung erfolgen kann 6b, wird der Speicher rückgesetzt 4b und es wird erwartet, dass eine anschließende Äußerung 2 vom Benutzer und ein von der Spracherkennungseinrichtung erhaltenes 2 Erkennungsergebnis auftreten usw. Wenn die neue Wahrscheinlichkeit unter dem Schwellenwert liegt, so dass keine zuverlässige Erkennung erfolgen kann, wird die neue Wahrscheinlichkeit in den Speicher 7 eingespeichert und es wird erwartet, dass eine anschließende Äußerung 2 des Benutzers erfolgt usw. Wenn eine der Funktionen unterbrochen wird, wird der Speicher rückgesetzt, so dass nichts in ihm verbleibt, was eine nach der Unterbrechung zu startende neue Erkennung stören würde. Das erfindungsgemäße Verfahren kann auch so realisiert werden, dass die Erkennungsauflösung 6a, 6b erzeugt wird, bevor herausgefunden wird 3, ob eine Wiederholung des vorangegangenen Worts zur Debatte steht oder nicht. Wenn der von der Spracherkennungseinrichtung für das wiederholte Wort berechnete Wert nun den eingestellten Schwellenwert überschreitet, muss keine derartige Berechnung einer neuen Wahrscheinlichkeit erfolgen, bei der die bei vor angegangenen Erkennungsversuchen berechneten Werte berücksichtigt würden.
  • Um den Rechenprozess auszuführen, können mehrere Berechnungsabläufe entwickelt werden, bei deren Verwendung eine genauere Wahrscheinlichkeit unter Verwendung der vorangegangenen Wahrscheinlichkeit erzielt werden kann. Jedoch ist die nützlichste Formel die Berechnungsformel für bedingte Wahrscheinlichkeit. Um den bei diesem Verfahren verwendeten Berechnungsablauf zu demonstrieren, wird unten die Verwendung einer Berechnung mit bedingter Wahrscheinlichkeit im einzelnen und in Zusammenhang mit dem erfindungsgemäßen Verfahren beschrieben. Es wird eine Situation untersucht, bei der ein Benutzer als erstes ein Wort A und dann ein Wort B spricht, nachdem er vom System dazu aufgefordert wurde, das Wort zu wiederholen. Eine Spracherkennungseinrichtung berechnet z. B. die folgenden Wahrscheinlichkeiten für die beiden Wörter A und B:
  • P(A = 1) = 0,7 (Wahrscheinlichkeit, dass A "eins" war)
  • P(A = 2) = 0,3 (Wahrscheinlichkeit, dass A "zwei" war)
  • F(B = 1) = 0,8 (Wahrscheinlichkeit, dass B "eins" war)
  • P(B = 1) = 0,2 (Wahrscheinlichkeit, dass B "zwei" war)
  • Wenn als Schwellenwert für die Erkennungsauflösung 0,9 eingestellt ist, kann betreffend jede Erkennung keine Erkennungsauflösung erzeugt werden. Wenn bekannt ist, dass der Benutzer beide Male dasselbe Wort sprach, kann die Zuverlässigkeit der Erkennung dadurch erhöht werden, dass zum Berechnen einer neuen Wahrscheinlichkeit die Wahrscheinlichkeit genutzt wird, die hinsichtlich vorangegangener und aktueller Erkennungen durch einen oder mehrerer dieser Vorgänge berechnet wurde. Dies kann z. B. durch eine Berechnung mit bedingter Wahrscheinlichkeit wie folgt erfolgen:
  • P(B = 1/A = B) = [P(B = 1 und A = B) / P(A = B)] =
  • = [P(B = 1 und ((A = 1 und B = 1) oder (A = 2 und B = 2)))] / P(A = B)
  • = [P((A = 1 und B = 1) oder (B = 1 und A = 2 und B = 2)) / P(A = B)]
  • = [P(A = 1 und B = 1) / P((A = 1 und B = 1) oder (A = 2 und B = 2))]
  • = [0,7 * 0,8 / 0,7 · 0,8 + 0,3 · 0,2] = 0,56 / 0,62 = 0,903
  • Die obige Berechnung, durch die eine Wahrscheinlichkeit für das Detail berechnet wurde, dass das zweite Wort, d. h. B, "eins" ist, wobei die Bedingung besteht, dass A mit B übereinstimmt, anders gesagt, dass das erste Wort dasselbe wie das zweite Wort ist, führt zu einer neuen Wahrscheinlichkeit, die im vorliegenden Fall den Schwellenwert überschreitet, so dass eine Erkennungsauflösung erzeugt werden kann. Selbst wenn die neue Wahrscheinlichkeit den Schwellenwert nicht überschreitet, ist sie jedoch besser als die durch die Spracherkennungseinrichtung berechnete individuelle Wahrscheinlichkeit, und auf diese Art wird im Speicher eine neue Wahrscheinlichkeit gespeichert und bei der Berechnung einer folgenden, neuen Wahrscheinlichkeit zusammen mit einer folgenden, von d er Spracherkennungseinrichtung berechneten Wahrscheinlichkeit verwendet. Es zeigt sich auch, dass der Unterschied zum zweitwahrscheinlichsten Wort zunimmt. Die obige Formel kann dadurch vereinfacht werden, dass nur der Zähler an Stelle des Nenners verwendet wird und mit einer geeigneten Konstanten Y multipliziert wird:
  • P(B = x A = B) = Y*P(A = x und B = x) = Y*P(A = x)*P(B = x)
  • Demgemäß wird die Gesamtwahrscheinlichkeit für jedes Bezugswort r wie folgt erhalten, wenn der Benutzer ein Wort N mal ausspricht:
  • P(r) = Y*P(r, 1)*P(r, 2)*...*P(r, N),
  • wobei P(r,1) die erste Äußerung des Bezugsworts r ist, P(r,2) die zweite Äußerung ist und N die letzte Äußerung desselben ist. Beim obigen Beispiel wurde eine Wahrscheinlichkeit für ein gegebenes Bezugswort berechnet. In Übereinstimmung mit den Schwellenkriterien bei der Spracherkennung nimmt die Differenz zwischen den Wahrscheinlichkeiten zweier Bezugswörter (für das Bezugswort, das von der Spracherkennungseinrichtung die höchste Wahrscheinlichkeit und die zweithöchste Wahrscheinlichkeit erhielt) automatisch zu, weswegen die Erkennungszuverlässigkeit verbessert ist. Es ist einfach, die obigen Rechenverfahren zu verwenden, wenn in der Spracherkenningseinrichtung das HMM-Verfahren verwendet wird, da es in solchen Fällen für jedes Bezugswort die Wahrscheinlichkeit des vom Benutzer gesprochenen Worts berechnet. Wenn das DTW-Verfahren verwendet wird, ist die Berechnung nicht ganz so unkompliziert, da nun für Bezugswörter in der Spracherkenningseinrichtung keine Wahrscheinlichkeit berechnet wird, sondern ein Abstand oder ein Standard dafür, wie weit das gesprochene Wort von jedem Bezugswort entfernt ist.
  • Daher muss zum Verbessern der Erkennungszuverlässigkeit beim Verfahren, bei dem vorige Wahrscheinlichkeiten genutzt werden, der Standard oder der Abstand als erstes in eine Wahrscheinlichkeit umgewandelt werden. BeLm DTW- Verfahren ist es so möglich, mittels einer Zahl D(r, i) zu beschreiben, in welchem Ausmaß jedes Bezugswort r einem gesprochenen Wort innerhalb einer Wiederholungszeit i ähnelt. Hierbei kann eine Wahrscheinlichkeit wie folgt unter Zuhilfenahme einer Funktion f(), z. B. einer nichtlinearen Funktion, aus der Zahl berechnet werden:
  • D(r) = f(D(r, 1), D(r, 2), ..., D(r, N))
  • Alternativ kann ein Schätzwert für die Wahrscheinlichkeit eines Bezugsworts aus dem durch einen DTW-Algorithmus gelieferten Ergebnis mittels eines Schätzwerts g() berechnet werden, wodurch das von der Spracherkennungseinrichtung berechnete Ergebnis in eine Wahrscheinlichkeit umgewandelt werden kann, und die Wahrscheinlichkeit einer i : n-ten Wiederholung eines Bezugsworts r ist nun P(r, i) = g(D(r, i)), wobei die Zahl P(r, i) entsprechend dem Verfahren beim Berechnen einer neuen Wahrscheinlichkeit verwendet werden kann, wie oben beschrieben.
  • In Fig. 2 ist ein Weg zum Realisieren des erfindungsgemäßen Verfahrens in einem Spracherkennungssystem dargestellt. Durch dieses Verfahren kann die Erkennungsgenauigkeit des Spracherkennungssystems verbessert werden, in dem die Spracherkennungseinrichtung 8 Erkennungsergebnisse, d. h. Erkennungswahrscheinlichkeiten, liefert, die an die Verarbeitungseinheit 9 für Erkennungsergebnisse geliefert werden. Jedes Erkennungsergebnis enthält eine Liste der zu erkennenden Wörter, wobei für jedes eine Wahrscheinlichkeit (oder ein anderer gualitätsfaktor) berechnet wurde, die beschreibt, in welchem Ausmaß ein vom Benutzer gesprochenes Wort Ähnlichkeit mit jedem Bezugswort hat. Die Bezugswörter können vorab im internen Bezugswörterspeicher der Spracherkennungseinrichtung 8 eingespeichert sein oder die Spracherkennungseinrichtung ist mit der Fähigkeit versehen, vom Benutzer gesprochene Wörter zu "lernen". Jedoch hat dieses Detail dazu, wie und wann Bezugswörter in den Bezugswörterspeicher eingespeichert werden, keine Bedeutung hinsichtlich der Erfindung, und die Spracherkennungseinrichtung 8 muss keinen Bezugswörterspeicher aufweisen. Wenn ein Wort nicht mit ausreichender Zuverlässigkeit erkannt werden kann, fordert die Benutzerkommunikationseinrichtung 11 den Benutzer dazu auf, das Wort zu wiederholen. In einem solchen Fall liefert die Benutzerkommunikationseinrichtung 11 Information an den Verarbeitungsblock 9 für Verarbeitungsergebnisse dahingehend, ob ein Wort vom Benutzer zu wiederholen ist oder nicht. Wenn die Benutzerkommunikationseinrichtung 11 die Verarbeitungseinheit 9 darüber informiert, dass eine Wiederholung eines Worts zu erwarten ist, wird auf die in Verbindung mit dem vorangegangenen Erkennungsversuch gespeicherten Daten aus dem Speicher 11 zugegriffen und für die Bezugswörter werden neue Wahrscheinlichkeiten für die Bezugswörter gemäß der Erfindung auf eine Weise berechnet, die die vorangegangenen Werte berücksichtigt. Wenn keine ausreichend zuverlässige Erkennung, selbst auf Grundlage der neuen Wahrscheinlichkeiten, erfolgen kann, werden diese neuen, genau berechneten Wahrscheinlichkeiten dennoch in den Speicher 10 eingespeichert. Nachdem eine erfolgreiche Erkennung erfolgte, wird der Speicher 10 rückgesetzt. Der Speicher wird auch dann rückgesetzt, wenn Daten von der Benutzerkommunikationseinrichtung dahingehend an den Verarbeitungsblock 9 geliefert werden, dass das nächste eingegebene Wort nicht dasselbe wie das vorige ist. In der Praxis kann das System dergestalt sein, dass der Verarbeitungsblock 9, der Speicher 10 und der Benutzerkommunikationsblock 11 einen Teil desselben Prozessors bilden, d. h., dass sie mittels eines Prozessors realisiert sind. Der Prozessor kann ein solcher sein, der speziell für das Spracherkennungssystem ausgebildet ist, oder es kann der Hauptprozessor für ein Funktelefon sein. Typischerweise verfügt auch die Spracherkennungseinrichtung 9 über einen Signalprozessor.
  • Unter Zuhilfenahme der Erfindung kann die Spracherkennungsgenauigkeit verbessert werden, obwohl die Grundfunktion der Spracherkennungseinrichtung selbst nicht verbessert ist. Wenn die Erkennungsgenauigkeit verbessert ist, ist die Entscheidungsfindung betreffend Erkennung beschleunigt und es kann ein benutzerfreundlicheres Freisprechtelefon realisiert werden. Die Erfindung ist nicht auf die Formel des Beispiels, wie in Fig. 1 dargestellt, beschränkt, sondern es können verschiedene Funktionen auch mit anderer Reihenfolge ausgeführt werden.
  • Angesichts der vorstehenden Beschreibung ist es für den Fachmann ersichtlich, dass innerhalb des Schutzumfangs der durch die beigefügten Ansprüche definierten Erfindung verschiedene Modifizierungen erfolgen können.

Claims (21)

1. Spracherkennungsvorrichtung mit:
- einer Vergleichseinrichtung zum Vergleichen eines von einem Benutzer gesprochenen ersten Worts mit mindestens einem vorbestimmten Bezugswort;
- einer Berechnungseinrichtung zum Berechnen eines Werts, der der Ähnlichkeit zwischen dem vom Benutzer gesprochenen ersten Wort und dem mindestens einen vorbestimmten Bezugswort entspricht;
- einer Auswähleinrichtung zum Auswählen des Werts, der der größten Wahrscheinlichkeit entspricht;
dadurch gekennzeichnet, dass die Berechnungseinrichtung so ausgebildet ist, dass sie den ausgewählten Wert beim Berechnen eines neuen Werts entsprechend der Ähnlichkeit zwischen einem zweiten vom Benutzer gesprochenen Wort und dem mindestens einen Bezugswort verwendet, wenn der ausgewählte Wert einem vorbestimmten Kriterium genügt.
2. Spracherkennungsvorrichtung nach Anspruch 1 mit mehr als einem vorbestimmten Bezugswort.
3. Spracherkennungsvorrichtung nach Anspruch 1 oder Anspruch 2, bei der das vom Benutzer gesprochene zweite Wort dasselbe wie das vom Benutzer gesprochene erste Wort ist.
4. Spracherkennungsvorrichtung nach einem der vorstehenden Ansprüche, bei der die Berechnungseinrichtung den ausgewählten Wert beim Berechnen eines neuen Werts nur dann verwendet, wenn das vom Benutzer gesprochene zweite Wort dasselbe wie das vom Benutzer gesprochene erste Wort ist.
5. Spracherkennungsvorrichtung nach einem der vorstehenden Ansprüche, bei der das vorbestimmte Kriterium dasjenige ist, dass der ausgewählte Wert kleiner als ein vorbestimmter Schwellenwert ist.
6. Spracherkennungsvorrichtung nach einem der Ansprüche 2 bis 4, k> ei der das vorbestimmte Kriterium darin besteht, dass die Differenz zwischen dem ausgewählten Wert und einem anderen Wert entsprechend der Ähnlichkeit zwischen dem vom Benutzer gesprochenen ersten Wort und einem anderen Bezugswort kleiner als ein vorbestimmter Schwellenwert ist.
7. Spracherkennungsvorrichtung nach Anspruch 5 oder Anspruch 6, bei der die Wiederholung des vom Benutzer gesprochenen ersten Worts angefordert wird, wenn der ausgewählte Wert dem vorbestimmten Kriterium genügt.
8. Spracherkennungsvorrichtung nach Anspruch 5 oder Anspruch 6, bei der dann, wenn der ausgewählte Wert dem vorbestimmten Kriterium nicht genügt, die Vorrichtung rückgesetzt wird und sie auf eine weitere Äußerung durch den Benutzer wartet.
9. Spracherkennungsvorrichtung nach einem der vorstehenden Ansprüche, bei der der Wert und der neue Wert jeweilige Wahrscheinlichkeiten dafür sind, dass das erste gesprochene Wort und das zweite gesprochene Wort jeweils dem mindestens einen vorbestimmten Bezugswort entsprechen.
1. 0. Spracherkennungsvorrichtung nach Anspruch 9, bei der der Wert und der neue Wert unter Verwendung einer Berechnung mit bedingter Wahrscheinlichkeit berechnet werden.
1. 1. Spracherkennungsvorrichtung nach einem der vorstehenden Ansprüche, mit einer Speichereinrichtung (10) zum Einspeichern der ausgewählten Werts und des neuen Werts.
12. Spracherkennungsverfahren, das folgendes aufweist:
- Vergleichen eines von einem Benutzer gesprochenen ersten Worts mtt mindestens einem vorbestimmten Bezugswort;
- Berechnen eines Werts, der der Ähnlichkeit zwischen dem vom Benutzer gesprochenen ersten Wort und dem mindestens einen vorbestimmten Bezugswort entspricht;
- Auswählen des Werts, der der größten Ähnlichkeit entspricht;
dadurch gekennzeichnet, dass der ausgewählte Wert dazu verwendet: wird,
einen neuen Wert entsprechend der Ähnlichkeit zwischen einem vom Benutzer gesprochenen zweiten Wort und dem mindestens einen Bezugswort zu berechnen, wenn der ausgewählte Wert einem vorbestimmten Kriterium genügt.
13. Verfahren nach Anspruch 12, bei dem mehr als ein vorbestimmtes Bezugswort existiert.
14. Verfahren nach Anspruch 12, bei dem das vom Benutzer gesprochene zweite Wort dasselbe wie das vom Benutzer gesprochene erste Wort ist.
15. Verfahren nach Anspruch 12, bei dem der ausgewählte Wert nur beim Berechnen eines neuen Werts verwendet wird, wenn dass vom Benutzer gesprochene zweite Wort dasselbe wie das vom Benutzer gesprochene erste Wort ist.
16. Verfahren nach einem der Ansprüche 12 bis 15, bei dem das vorbestimmte Kriterium dasjenige ist, dass der ausgewählte Wert kleiner als ein vorbestimmter Schwellenwert ist.
17. Verfahren nach einem der Ansprüche 13 bis 15, bei dem das vorbestimmte Kriterium darin besteht, dass die Differenz zwischen dem ausgewählten Wert und einem anderen Wert entsprechend der Ähnlichkeit zwischen dem vom Benutzer gesprochenen ersten Wort und einem anderen Bezugswort kleiner als ein vorbestimmter Schwellenwert ist.
18. Verfahren nach Anspruch 16 oder Anspruch 17, bei dem die Wiederholung des vom Benutzer gesprochenen ersten Worts angefordert wird, wenn der ausgewählte Wert dem vorbestimmten Kriterium genügt.
19. Verfahren nach Anspruch 16 oder Anspruch 17, bei dem dann, wenn der ausgewählte Wert dem vorbestimmten Kriterium nicht genügt, die Vorrichtung rückgesetzt wird und sie auf eine weitere Äußerung durch den Benutzer wartet.
20. Verfahren nach einem der vorstehenden Ansprüche, bei dem der Wert und der neue Wert jeweilige Wahrscheinlichkeiten dafür sind, dass das erste gesprochene Wort und das zweite gesprochene Wort jeweils dem mindestens einen vorbestimmten Bezugswort entsprechen.
21. Verfahren nach Anspruch 20, bei dem der Wert und der neue Wert unter Verwendung einer Berechnung mit bedingter Wahrscheinlichkeit berechnet werden.
DE69324629T 1992-06-05 1993-06-04 Verfahren und Vorrichtung zur Spracherkennung Expired - Lifetime DE69324629T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FI922606A FI97919C (fi) 1992-06-05 1992-06-05 Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten

Publications (2)

Publication Number Publication Date
DE69324629D1 DE69324629D1 (de) 1999-06-02
DE69324629T2 true DE69324629T2 (de) 1999-09-30

Family

ID=8535429

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69324629T Expired - Lifetime DE69324629T2 (de) 1992-06-05 1993-06-04 Verfahren und Vorrichtung zur Spracherkennung

Country Status (5)

Country Link
US (1) US5640485A (de)
EP (1) EP0573301B1 (de)
JP (1) JPH06161489A (de)
DE (1) DE69324629T2 (de)
FI (1) FI97919C (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19930522A1 (de) * 1999-07-05 2001-02-01 Univ Ilmenau Tech Verfahren zur Erkennung von Lautsignalen
DE10063901A1 (de) * 2000-12-21 2002-07-04 Deere & Co Bedienungsvorrichtung

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4857215A (en) * 1986-03-25 1989-08-15 Wong John L Semi-fluid lubricant for extreme climates
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
TW323364B (de) * 1993-11-24 1997-12-21 At & T Corp
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US6397180B1 (en) * 1996-05-22 2002-05-28 Qwest Communications International Inc. Method and system for performing speech recognition based on best-word scoring of repeated speech attempts
FI101333B (fi) * 1996-09-02 1998-05-29 Nokia Mobile Phones Ltd Puhekomennoilla ohjattava telepäätelaite
ES2169432T3 (es) * 1996-09-10 2002-07-01 Siemens Ag Procedimiento para la adaptacion de un modelo de sonido hidden markov en un sistema de reconocimiento de voz.
US5950160A (en) 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US5899976A (en) * 1996-10-31 1999-05-04 Microsoft Corporation Method and system for buffering recognized words during speech recognition
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US6148100A (en) * 1996-12-20 2000-11-14 Bechtel Bwxt Idaho, Llc 3-dimensional telepresence system for a robotic environment
FI114247B (fi) 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
FI111673B (fi) 1997-05-06 2003-08-29 Nokia Corp Menetelmä puhelinnumeron valitsemiseksi puhekomennoilla ja puhekomennoilla ohjattava telepäätelaite
FI972723A0 (fi) 1997-06-24 1997-06-24 Nokia Mobile Phones Ltd Mobila kommunikationsanordningar
FI973093A (fi) * 1997-07-23 1999-01-24 Nokia Mobile Phones Ltd Menetelmä telepalvelun ohjaamiseksi ja päätelaite
FR2769118B1 (fr) 1997-09-29 1999-12-03 Matra Communication Procede de reconnaissance de parole
KR100277105B1 (ko) 1998-02-27 2001-01-15 윤종용 음성 인식 데이터 결정 장치 및 방법
GB9806401D0 (en) * 1998-03-25 1998-05-20 Domain Dynamics Ltd Improvements in voice operated mobile communications
DE19816933A1 (de) 1998-04-16 1999-10-21 Nokia Mobile Phones Ltd Verfahren zum Steuern einer elektronischen Einrichtung, insbesondere einer Mobilstation eines Mobilfunknetzes
US6393304B1 (en) 1998-05-01 2002-05-21 Nokia Mobile Phones Limited Method for supporting numeric voice dialing
FI981127A (fi) 1998-05-20 1999-11-21 Nokia Mobile Phones Ltd Ääniohjausmenetelmä ja äänellä ohjattava laite
FI981154A (fi) 1998-05-25 1999-11-26 Nokia Mobile Phones Ltd Menetelmä ja laite puheen tunnistamiseksi
DE19825760A1 (de) 1998-06-09 1999-12-16 Nokia Mobile Phones Ltd Verfahren zum Zuweisen einer auswählbaren Möglichkeit zu einem Stellmittel
FI105641B (fi) 1998-08-10 2000-09-15 Nokia Mobile Phones Ltd Resurssien varaus pakettimuotoisessa tiedonsiirrossa
FI116991B (fi) 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US6230135B1 (en) 1999-02-02 2001-05-08 Shannon A. Ramsay Tactile communication apparatus and method
US6393305B1 (en) 1999-06-07 2002-05-21 Nokia Mobile Phones Limited Secure wireless communication user identification by voice recognition
US6487531B1 (en) 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
US6490443B1 (en) 1999-09-02 2002-12-03 Automated Business Companies Communication and proximity authorization systems
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US7657540B1 (en) 2003-02-04 2010-02-02 Seisint, Inc. Method and system for linking and delinking data records
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
WO2007095277A2 (en) * 2006-02-14 2007-08-23 Intellectual Ventures Fund 21 Llc Communication device having speaker independent speech recognition
JP5426363B2 (ja) * 2006-04-03 2014-02-26 ヴォコレクト・インコーポレーテッド 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
US20070286398A1 (en) * 2006-06-07 2007-12-13 Venkatesan Ramamoorthy Voice Recognition Dialing For Alphabetic Phone Numbers
US20070286399A1 (en) * 2006-06-07 2007-12-13 Venkatesan Ramamoorthy Phone Number Extraction System For Voice Mail Messages
US20080037745A1 (en) * 2006-07-31 2008-02-14 Venkatesan Ramamoorthy Systems, Methods, And Media For Automated Conference Calling
US20090125299A1 (en) * 2007-11-09 2009-05-14 Jui-Chang Wang Speech recognition system
US8266168B2 (en) 2008-04-24 2012-09-11 Lexisnexis Risk & Information Analytics Group Inc. Database systems and methods for linking records and entity representations with sufficiently high confidence
US8661026B2 (en) * 2008-07-02 2014-02-25 Lexisnexis Risk Solutions Fl Inc. Entity representation identification using entity representation level information
US8965765B2 (en) * 2008-09-19 2015-02-24 Microsoft Corporation Structured models of repetition for speech recognition
US9002713B2 (en) * 2009-06-09 2015-04-07 At&T Intellectual Property I, L.P. System and method for speech personalization by need
US9411859B2 (en) 2009-12-14 2016-08-09 Lexisnexis Risk Solutions Fl Inc External linking based on hierarchical level weightings
US9189505B2 (en) 2010-08-09 2015-11-17 Lexisnexis Risk Data Management, Inc. System of and method for entity representation splitting without the need for human interaction
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
KR101595090B1 (ko) * 2015-04-30 2016-02-17 주식회사 아마다스 음성 인식을 이용한 정보 검색 방법 및 장치
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10135989B1 (en) 2016-10-27 2018-11-20 Intuit Inc. Personalized support routing based on paralinguistic information

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
JPS6024597A (ja) * 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式
US5003603A (en) * 1984-08-20 1991-03-26 Gus Searcy Voice recognition system
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPS62232000A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識装置
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
JPS63225300A (ja) * 1987-03-16 1988-09-20 株式会社東芝 パタ−ン認識装置
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
GB8809898D0 (en) * 1988-04-27 1988-06-02 British Telecomm Voice-operated service
US5212764A (en) * 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19930522A1 (de) * 1999-07-05 2001-02-01 Univ Ilmenau Tech Verfahren zur Erkennung von Lautsignalen
DE10063901A1 (de) * 2000-12-21 2002-07-04 Deere & Co Bedienungsvorrichtung

Also Published As

Publication number Publication date
EP0573301B1 (de) 1999-04-28
EP0573301A1 (de) 1993-12-08
JPH06161489A (ja) 1994-06-07
FI97919C (fi) 1997-03-10
FI922606A (fi) 1993-12-06
US5640485A (en) 1997-06-17
FI922606A0 (fi) 1992-06-05
DE69324629D1 (de) 1999-06-02
FI97919B (fi) 1996-11-29

Similar Documents

Publication Publication Date Title
DE69324629T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1256936B1 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
DE69426969T2 (de) Spracherkennung mit bewerteter Entscheidung
DE60024236T2 (de) Sprach endpunktbestimmung in einem rauschsignal
DE3855164T2 (de) Eingabeverfahren für datensequenzen mittels steuerung durch die stimme
DE69614789T2 (de) Vom Anwender auswählbare mehrfache Schwellenwertkriterien für Spracherkennung
DE69705891T2 (de) Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE102008034143B4 (de) Verfahren zur Umgebungsgeräuscheinkopplung für eine Spracherkennung in einem Serienfahrzeug
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
DE3853294T2 (de) Verfahren zur beendigung eines telefonanrufs durch sprachsteuerung.
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE102012220796B4 (de) Verfahren zum Initiieren eines Freisprechkonferenzgesprächs
DE60204504T2 (de) Schlüsselworterkennung in einem verrauschten Signal
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
WO2009140781A1 (de) Verfahren zur klassifizierung und entfernung unerwünschter anteile aus einer äusserung bei einer spracherkennung
WO1995007597A1 (de) Mobilfunkgerät mit freisprecheinrichtung
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE102011120315A1 (de) Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten
DE60212725T2 (de) Verfahren zur automatischen spracherkennung
WO2005022511A1 (de) Unterstützungsverfahren für sprachdialoge zur bedienung von kraftfahrzeugfunktionen
DE10006930B4 (de) System und Verfahren zur Spracherkennung
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung
DE19939102C1 (de) Verfahren und Anordnung zum Erkennen von Sprache
EP0747880A2 (de) Spracherkennungssystem

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: BECKER, KURIG, STRAUS, 80336 MUENCHEN

8327 Change in the person/name/address of the patent owner

Owner name: NOKIA MOBILE PHONES LTD., ESPOO, FI

8327 Change in the person/name/address of the patent owner

Owner name: NOKIA CORP., ESPOO, FI

R082 Change of representative

Ref document number: 573301

Country of ref document: EP

Representative=s name: BECKER, KURIG, STRAUS, 80336 MUENCHEN, DE

R079 Amendment of ipc main class

Ref document number: 573301

Country of ref document: EP

Free format text: PREVIOUS MAIN CLASS: G10L0005060000

Ipc: G10L0015000000