DE69923253T2 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents

Verfahren und Vorrichtung zur Spracherkennung Download PDF

Info

Publication number
DE69923253T2
DE69923253T2 DE69923253T DE69923253T DE69923253T2 DE 69923253 T2 DE69923253 T2 DE 69923253T2 DE 69923253 T DE69923253 T DE 69923253T DE 69923253 T DE69923253 T DE 69923253T DE 69923253 T2 DE69923253 T2 DE 69923253T2
Authority
DE
Germany
Prior art keywords
user
models
mobile device
speech recognition
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69923253T
Other languages
English (en)
Other versions
DE69923253D1 (de
Inventor
Christian Lindholm
Kari Laurila
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of DE69923253D1 publication Critical patent/DE69923253D1/de
Publication of DE69923253T2 publication Critical patent/DE69923253T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Position Input By Displaying (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren zum Erkennen von Sprache und eine das erfindungsgemäße Spracherkennungsverfahren verwendende Einrichtung.
  • Normalerweise ist es bei Mobiltelefonen möglich, durch einen Telefonnotizblock, bzw. ein Telefonbuch zum Auswählen eines Namens durch das Verwenden des ersten Buchstabens des gesuchten Namens zu blättern. In diesem Fall werden, wenn ein Benutzer während der Suche beispielsweise den Buchstaben "s" drückt, die mit dem Buchstaben "s" beginnenden Namen aus einem Speicher abgerufen. Der Benutzer kann dadurch den Namen, den er sucht, schneller finden, ohne den Inhalt des Notizblocks zum Finden des Namens in alphabetischer Reihenfolge durchblättern zu müssen. Diese Art von Verfahren ist ganz manuell und beruht auf den von dem Benutzer über eine Tastatur eingegebenen Befehlen und das darauf beruhende Durchsuchen des Speichers.
  • Heutzutage gibt es auch einige Mobilstationen, die Spracherkennungseinrichtungen verwenden, wobei ein Benutzer einen Befehl per Sprache geben kann. Bei diesen Einrichtungen ist die Spracherkennungseinrichtung oft sprecherabhängig, d.h. die Arbeitsweise der Spracherkennungseinrichtung beruht darauf, dass der Benutzer die Spracherkennungseinrichtung Worte lehrt, die die Spracherkennungseinrichtung später erkennen soll. Es gibt auch sogenannte sprecherunabhängige Spracherkennungseinrichtungen, für die keine separate Trainingsphase erforderlich ist. In diesem Fall beruht die Arbeitsweise der Spracherkennungseinrichtung auf einer großen Menge Lehrmaterial, das aus einer großen Stichprobe unterschiedlicher Arten von Sprechern zusammengestellt ist. Eine angemessene Arbeitsweise im Falle eines sogenannten Durchschnittsbenutzers ist typisch für eine sprecherunabhängige Erkennungseinrichtung. Eine sprecherabhängige Spracherkennungseinrichtung arbeitet dementsprechend am besten für die Person, die die Spracherkennungseinrichtung trainiert hat.
  • In dem Europäischen Patent Nummer EP 0 718 823 ist ein Verfahren zum Umwandeln von Sprachinformationen in maschinenlesbare Daten offenbart, wobei aufgezeichnete Sprachelemente mit vorausgewählten Teilwortsegmenten der diesen spezifischen mechanischen Datenelementen zugeordneten Sprachelemente verglichen werden. Vor dem Vergleich werden die für die technische Anlage relevanten Hauptsprachelemente ausgewählt. Die Auswahl eines Teilwortsegments wird beruhend auf einem vorhergehenden Vollwortsegment gemäß der räumlichen Position des Benutzers und/oder der Gestik des Benutzers und/oder der Blickrichtung des Benutzers und/oder der Sprachrichtung des Benutzers getroffen. Die Auswahl eines Teilwortsegments vermindert die Komplexität des Wortsegments während der Spracheingabe. Das Spracherkennungsmodul enthält einen Filter zur Auswahl von Hauptsprachelementen.
  • Es ist für beide vorstehend genannte Spracherkennungseinrichtungen typisch, dass die Leistung der Spracherkennungseinrichtung stark vom Umfang eines verwendeten Wortschatzes abhängt. Es ist für Spracherkennungseinrichtungen gemäß dem Stand der Technik auch typisch, dass sie auf eine bestimmte Anzahl an Wörtern beschränkt sind, die die Spracherkennungseinrichtung erkennen kann. Bei Mobilstationen wird für einen Benutzer beispielsweise ein Maximum von 20 Namen bereitgestellt, die er in einem Notizblock innerhalb des Telefons per Sprache speichern kann, und wobei er diese gespeicherten Namen in Verbindung mit einer Sprachauswahl entsprechend verwenden kann. Es ist ziemlich offensichtlich, dass eine derartige Zahl in gegenwärtigen und zukünftigen Anwendungen nicht ausreichen wird, bei denen die Aufgabe besteht, die Zahl der zu erkennenden Worte wesentlich zu erhöhen. Während sich die Zahl der zu erkennenden Worte beispielsweise um das Zehnfache erhöht, ist es mit den aktuellen Verfahren nicht möglich, die gleiche Spracherkennungsleistung wie bei Verwendung eines kleineren Wortschatzes zu erhalten. In Endeinrichtungen ist ein weiterer begrenzender Faktor beispielsweise das Erfordernis eines verwendbaren Speichers, der sich selbstverständlich erhöht, wenn sich der Wortschatz der Spracherkennungseinrichtung erweitert.
  • In aktuellen Spracherkennungseinrichtungen gemäß dem Stand der Technik kann die Aktivierung einer Spracherkennungseinrichtung per Sprache unter Verwendung eines bestimmten Aktivierungsbefehls wie beispielsweise "AKTIVIEREN" implementiert sein, woraufhin die Spracherkennungseinrichtung aktiviert und zum Empfangen von Befehlen von dem Benutzer bereit ist. Eine Spracherkennungseinrichtung kann auch mit einer separaten Taste aktiviert werden. Es ist für sprachaktivierte Spracherkennungseinrichtungen typisch, dass die Aktivierungsleistung vom Lärmpegel der Umgebung abhängig ist. Der Lärmpegel der Umgebung beeinflusst auch während der Arbeitsweise der Spracherkennungseinrichtung stark die erreichbare Leistung der Spracherkennungseinrichtung. Es kann festgestellt werden, dass kritische Parameter für die Leistung einer Spracherkennungseinrichtung der Umfang des Wortschatzes und die Lärmbedingungen der Umgebung sind.
  • Ein weiteres bekanntes Spracherkennungssystem ist in der US 4 866 778 offenbart, bei dem ein Benutzer einen Teil-Wortschatz von Wörtern durch das Auswählen einer Anfangsfolge eines oder mehrerer Buchstaben zum Veranlassen der Durchführung der Erkennung gegenüber dem auf mit diesen Anfangsbuchstaben beginnende Wörter beschränkten Teil-Wortschatz auswählen kann.
  • Wir haben nun ein Verfahren und eine Einrichtung zur Spracherkennung erfunden, deren Aufgabe das Vermeiden oder zumindest das Vermindern der vorstehend genannten Probleme im Stand der Technik ist. Die vorliegende Erfindung bezieht sich auf eine Einrichtung und ein Verfahren, wobei es einem Benutzer erlaubt ist, während der Spracherkennung ein Abfragekriterium anzugeben, mittels dessen eine Spracherkennung ausschließlich auf die Sprachmodelle beschränkt ist, die dem vom Benutzer bereitgestellten Abfragekriterium entsprechen. In diesem Fall wird lediglich ein bestimmter während der Spracherkennung zu verwendender Teilsatz aus den vorgespeicherten Sprachmodellen ausgewählt.
  • Gemäß einem Ausführungsbeispiel der Erfindung wird eine Spracherkennungseinrichtung gleichzeitig mit der Bereitstellung eines die Spracherkennung beschränkenden Abfragekriteriums durch das Berühren der Einrichtung durch die Verwendung der bestehenden Tastatur oder des/r bestehenden berührungsempfindlichen Schirms/Grundfläche der Einrichtung aktiviert. Die Aktivierung ist vorzugsweise mit einer Taste implementiert. Ein erfindungsgemäßes Verfahren bietet dem Benutzer einem logischen Weg zum Aktivieren der Spracherkennungseinrichtung, wobei sie zur gleichen Zeit zusammen mit dem eingegebenen Abfragekriterium eine verbesserte Leistung der Spracherkennungseinrichtung bereitstellt. Die erfindungsgemäße Beschränkung der Spracherkennung kann auch unabhängig von der Aktivierung der Spracherkennungseinrichtung implementiert werden.
  • Gemäß einem Ausführungsbeispiel der Erfindung umfasst die Einrichtung einen berührempfindlichen Schirm oder eine berührempfindliche Oberfläche (Grundfläche), wobei die Informationen über den auf dem Schirm geschriebenen Buchstaben oder über die mehreren Buchstaben zu der Spracherkennungseinrichtung übertragen werden, woraufhin die Spracherkennung auf Wörter beschränkt wird, in denen die fraglichen Buchstaben auftreten. Eine Spracherkennung wird am Besten auf einen Namen beschränkt, der mit dem von dem Benutzer auf den Berührschirm geschriebenen Buchstaben beginnt.
  • Gemäß einem Ausführungsbeispiel der Erfindung kann die Spracherkennung auch durch das Verwenden aller gespeicherten Modelle im voraus und das Verwenden des von dem Benutzer bereitgestellten beschränkenden Abfragekriteriums, wenn das endgültige Erkennungsergebnis definiert wird, implementiert werden.
  • Gemäß einem ersten Gesichtspunkt der Erfindung ist ein Verfahren zum Erkennen einer Äußerung eines Benutzers mit einer Mobileinrichtung bereitgestellt, wobei ein Satz von Modellen der Äußerungen zuvor und zur Spracherkennung gespeichert wurde, wobei die Äußerung des Benutzers empfangen wird, die Äußerung des Benutzers mit den vorgespeicherten Modellen verglichen wird, und auf der Grundlage des Vergleichs eine Erkennungsentscheidung getroffen wird, wobei das Verfahren dadurch gekennzeichnet ist, dass
    • – es dem Benutzer erlaubt ist, durch ein Berühren der Mobileinrichtung ein den Vergleich beschränkendes Abfragekriterium bereitzustellen, wobei das Abfragekriterium ein Element in einer Menüstruktur der Mobileinrichtung identifiziert,
    • – ein Teilsatz von Modellen auf der Grundlage des von dem Benutzer bereitgestellten Abfragekriteriums aus den gespeicherten Modellen ausgewählt wird, wobei der Teilsatz der Modelle Unterelemente der Menüstruktur identifiziert, und
    • – ein Vergleich zum Treffen der Erkennungsentscheidung durch Vergleichen der Äußerung des Benutzers mit dem Teilsatz der Modelle durchgeführt wird.
  • Gemäß einem zweiten Gesichtspunkt der Erfindung ist ein Verfahren zum Erkennen einer Äußerung eines Benutzers mit einer Mobileinrichtung bereitgestellt, wobei ein Satz von Modellen der Äußerungen zuvor und zur Spracherkennung gespeichert wurde, wobei die Äußerung des Benutzers empfangen wird, die Äußerung des Benutzers mit den vorgespeicherten Modellen verglichen wird, und auf der Grundlage des Vergleichs eine Erkennungsentscheidung getroffen wird, wobei das Verfahren dadurch gekennzeichnet ist, dass
    • – ein Vergleich zum Treffen einer ersten Erkennungsentscheidung durch Vergleichen der Äußerung des Benutzers mit den vorgespeicherten Modellen ausgeführt wird,
    • – der Benutzer durch ein Berühren der Mobileinrichtung zur Auswahl eines Teilsatzes von Modellen ein den Vergleich beschränkendes Abfragekriterium bereitstellen kann, wobei das Abfragekriterium ein Element in einer Menüstruktur der Mobileinrichtung identifiziert und der Teilsatz der Modelle Unterelemente der Menüstruktur identifiziert,
    • – ein endgültiger Vergleich zum Treffen der Erkennungsentscheidung durch ein Vergleichen der ersten Erkennungsentscheidung mit dem Teilsatz der Modelle ausgeführt wird.
  • Gemäß einem dritten Gesichtspunkt der Erfindung ist eine Mobileinrichtung mit einer Spracherkennungseinrichtung zum Erkennen der Äußerung eines Benutzers, einer Speichereinrichtung zum Speichern von Sprachmodellen und einer Einrichtung zum Empfangen der Äußerung des Benutzers, und Vergleichseinrichtungen zum Ausführen des Erkennungsvorgangs durch Vergleichen der Äußerung des Benutzers mit den in der Speichereinrichtung gespeicherten Modellen bereitgestellt, die dadurch gekennzeichnet ist, dass die Einrichtung auch eine Einrichtung zum Empfangen eines Abfragekriteriums von dem Benutzer durch das Berühren der Einrichtung, eine Einrichtung zum Auswählen eines Satzes aus den gespeicherten Modellen auf der Grundlage des von dem Benutzer empfangenen Abfragekriteriums zur Beschränkung des von den Vergleichseinrichtungen ausgeführten Vergleichs mit dem Satz der Modelle, und eine Einrichtung zum Speichern einer Menüstruktur der Mobileinrichtung und zum Identifizieren des empfangenen Abfragekriteriums als Element in einer Menüstruktur der Mobileinrichtung umfasst.
  • Es zeigen:
  • 1 die Struktur einer Spracherkennungseinrichtung gemäß dem Stand der Technik als Blockdiagramm,
  • 2 die Struktur einer Spracherkennungseinrichtung gemäß der Erfindung als Blockdiagramm,
  • 3 die Arbeitsweise eines erfindungsgemäßen Verfahrens als Ablaufdiagramm,
  • 4 die Arbeitsweise eines anderen erfindungsgemäßen Verfahrens als Ablaufdiagramm, und
  • 5 die Struktur einer ein erfindungsgemäßes Verfahren verwendenden Mobilstation.
  • 1 zeigt die Ablaufdiagrammstruktur einer bekannten Spracherkennungseinrichtung, bei der die Erfindung anwendbar ist. Typischerweise ist die Arbeitsweise der Spracherkennungseinrichtung in zwei unterschiedliche Hauptaktivitäten aufgeteilt: eine tatsächliche Spracherkennungsphase 10-12, 14-15 und eine Sprachtrainingsphase 10-13, wie in 1 gezeigt. Die Spracherkennungseinrichtung empfängt von einem Mikrophon als Eingabeeinrichtung ein Sprachsignal S(n), das von einem A/D-Wandler 10 beispielsweise bei Verwendung einer Abtastfrequenz von 8kHz und einer 12-Bit Auflösung pro Abtastwert in eine digitale Form gewandelt wird. Typischerweise umfasst die Spracherkennungseinrichtung einen sogenannten Vorrechner 11, wobei das Sprachsignal analysiert und ein Merkmalsvektor 12 modelliert wird, der das Sprachsignal während einem bestimmten Zeitabschnitt beschreibt. Der Merkmalsvektor wird beispielsweise in 10ms-Intervallen bestimmt. Der Merkmalsvektor kann unter Verwendung mehrerer unterschiedlicher Verfahren modelliert werden. Unterschiedliche Arten von Verfahren zum Modellieren eines Merkmalsvektors wurden beispielsweise in der Druckschrift J. Picone, "Signal modeling techniques in speech recognition", IEEE Proceedings, Vol. 81, Nummer 9, S. 1215-1247, September 1993 dargestellt. Während der Trainingsphase werden in einem Trainingsblock 13 der Spracherkennungseinrichtung mittels des Merkmalsvektors 12 Modelle für die von der Spracherkennungseinrichtung verwendeten Worte erstellt. Beim Modelltraining 13a wird ein Modell für das zu erkennende Wort bestimmt. In der Trainingsphase kann eine Wiederholung des zu modellierenden Wortes verwendet werden. Die Modelle werden in einem Speicher 13b gespeichert. Während der Spracherkennung wird der Merkmalsvektor 12 zu einer tatsächlichen Erkennungseinrichtung 14 übertragen, die in einem Block 15a die während der Trainingsphase erstellten Modelle mit den aus der zu erkennenden Sprache zu erstellenden Merkmalsvektoren vergleicht, und die Entscheidung über das Erkennungsergebnis wird in einem Block 15b getroffen. Das Erkennungsergebnis 15 bezeichnet das in dem Speicher der Spracherkennungseinrichtung gespeicherte Wort, das dem Wort am besten entspricht, das von einer die Spracherkennungseinrichtung verwendenden Person geäußert wurde.
  • 2 zeigt die Arbeitsweise einer erfindungsgemäßen Spracherkennungseinrichtung, bei der die Spracherkennungseinrichtung zusätzlich zu der Lösung gemäß 1 einen Block 16 umfasst, in dem die Auswahl der Modelle auf der Grundlage der durch einen Benutzer beispielsweise durch eine Tastatur erteilten Befehle ausgeführt wird. Der Block 16 empfängt als Eingabe ein Signal 17, das die Informationen enthält, auf welche Taste der Benutzer gedrückt hat. In dem Block 16 werden durch den Block 13b übertragene Sprachmodelle 18 mit dem Signal 17 verglichen und ein Teilsatz 19 wird aus diesen ausgewählt und zu dem Block 15a der Spracherkennungseinrichtung übertragen. Die Auswahl der sich auf die Arbeitsweise des Blockes 16 beziehenden Modelle wird nachstehend unter Verwendung einer erfindungsgemäßen Speicherstruktur beschrieben.
    Figure 00100001
    Tabelle 1
    Figure 00100002
    Tabelle 2
  • Die Tabelle 1 zeigt eine erfindungsgemäße Speicherstruktur, die beispielsweise ein Telefonbuch einer Mobilstation oder einen Teil davon bilden kann. Der Speicher umfasst den Namen einer Person, eine dem Namen zugehörige Telefonnummer, sowie ein während der Spracherkennungstrainingsphase erstelltes Referenzmodell (beispielsweise einen Merkmalsvektor). Die Tabelle zeigt als Beispiel eine Zeile der Tabelle, in der der Name einer Person "Smith", eine zugehörige Telefonnummer "0405459883", sowie ein ein Referenzmodell "xxx...x" enthaltendes Datenfeld gespeichert sind. Die Länge des Referenzmodells ist ein für eine Spracherkennungseinrichtung spezifischer Parameter und daher hängt die Feldlänge von der verwendeten Spracherkennungseinrichtung ab. Erfindungsgemäß geht die Verarbeitungseinrichtung der Einrichtung, wenn ein Benutzer eine bestimmte Taste der Einrichtung wie beispielsweise die Taste "s" drückt, den Inhalt des Speichers durch und vergleicht den Inhalt des den Namen enthaltenden Datenfeldes und ruft lediglich die mit dem Buchstaben "s" beginnenden Namen aus dem Speicher ab. Der Vergleich kann beispielsweise durch das Vergleichen des ASCII-Zeichens der gedrückten Taste mit dem ASCII-Zeichen des ersten Buchstabens des Namens im Speicher ausgeführt werden und durch das Auswählen des dem Namen zugehörigen Referenzmodells unter der Voraussetzung, dass die Buchstaben einander beim Vergleich entsprechen. Die Informationen über die ausgewählten Referenzmodelle (Teilsatz) werden dann zu der Spracherkennungseinrichtung übertragen, woraufhin die Spracherkennungseinrichtung die Spracherkennung unter Verwendung der sich auf die vorstehend ausgewählten Namen beziehenden Modelle ausführt.
  • Der Benutzer kann ferner auch eine weitere Taste wie beispielsweise die Taste "m" drücken, woraufhin die Spracherkennung auf mit der Buchstabenkombination "Sm" beginnende Namen beschränkt wird. In diesem Fall kann die Zahl zu erkennender Namen weiter beschränkt werden, d.h. der Teilsatz von Modellen nimmt ab. Außerdem ist es auch möglich, dass der Speicher andere Felder als das vorstehend genannte Namensfeld enthält, auf Grundlage derer die Spracherkennungseinrichtung erfindungsgemäß aktiviert wird. Der Telefonspeicher einer Einrichtung, beispielsweise einer Mobilstation, kann beispielsweise ein Feld enthalten, das anzeigt, ob eine bestimmte Nummer eine Mobilstationsnummer ist oder nicht. In diesem Fall kann das Speicherfeld beispielsweise ein Element "GSM" enthalten, wobei, wenn der Benutzer dieses Feld aktiviert, ausschließlich die GSM-Nummern ausgewählt werden und nicht die anderen wie beispielsweise Festnetz- oder Faxnummern. Die Erfindung ist somit nicht darauf beschränkt, dass die Arbeitsweise der Spracherkennungseinrichtung von dem von dem Benutzer ausgewählten Buchstaben gesteuert wird, sondern der Benutzer kann beispielsweise auch gemäß einer anderen Klassifikation Namen aus einem Telefonbuch auswählen. Die Namen in einem Telefonbuch können beispielsweise in Klassen wie "Daheim", "Büro", "Freunde" aufgeteilt sein, ein Fall, bei dem die Mobilstation einen bequemen Weg, aus dem Menü beispielsweise die Klasse "Freunde" auszuwählen, bereitstellen kann, wobei die Spracherkennung erfindungsgemäß auf die Namen in dieser Klasse gerichtet ist. Die Mobilstation kann auch eine Tastatur umfassen, wobei mehrere unterschiedliche Zeichen in einer bestimmten Taste kombiniert sind. Die Buchstabensymbole "j, k, l" können beispielsweise in der numerischen Taste "5" enthalten sein. In diesem Fall kann die Erfindung derart angewendet werden, dass, wenn der Benutzer die Taste "5" drückt, die Spracherkennungseinrichtung aktiviert ist, so dass sie bei der Spracherkennung auf mit den Buchstaben "j", "k" oder "l" beginnende Namen beschränkt ist. In einem Ausführungsbeispiel der Erfindung kann die Spracherkennung, wenn der Benutzer die Taste SENDEN drückt, erfindungsgemäß beispielsweise auf die zuletzt getätigten Anrufe (beispielsweise die letzten 10 Anrufe) beschränkt werden. In diesem Fall kann ein Anruf beispielsweise durch das Drücken und Halten der Taste SENDEN begonnen werden, während der Benutzer gleichzeitig den zu erkennenden Namen ausspricht, wobei die Spracherkennung auf einen den Namen/das Symbol der letzten 10 Anrufe enthaltenden Teilsatz von Modellen beschränkt ist.
  • Die Spracherkennungseinrichtung wird am Besten durch ein Drücken und Halten aktiviert, wobei die Einrichtung (Spracherkennungseinrichtung) durch das Drücken und Halten der fraglichen Taste informiert wird, dass der Beginn einer Spracherkennung gewünscht wird. Gleichzeitig werden die Informationen über die gedrückte Taste zu der Spracherkennungseinrichtung übertragen, d.h. die Spracherkennung wird beispielsweise auf mit dem Buchstaben auf der Taste beginnende Worte beschränkt, wobei lediglich die vom Benutzer gewünschten Referenzmodelle aktiviert werden. Es ist auch erfindungsgemäß, dass die Spracherkennungseinrichtung auf eine andere Weise als durch das Drücken einer Taste, beispielsweise per Sprache, aktiviert wird. In diesem Fall kann nach der Aktivierung der Spracherkennungseinrichtung während der Spracherkennung die erfindungsgemäße, wie vorstehend dargestellte Referenzmodellauswahl verwendet werden.
  • Eine erfindungsgemäße Anordnung kann auch für die Menüstruktur einer Mobilstation gebildet werden, wie in Tabelle 2 gezeigt. Die Tabelle 2 zeigt einen bestimmten Teil der Menüstruktur eines Telefons. In diesem Beispiel besteht das Hauptmenü aus den Menüs "Telefoneinstellungen", "Mitteilungen" und "Speicherfunktionen". Das Menü "Mitteilungen" besteht entsprechend aus den Untermenüs "Mitteilungen Lesen" und "Miteilungen Schreiben". Wenn ein Benutzer des Telefons eine Menüfunktion per Sprache oder durch das Drücken einer Menütaste auswählt, wird die Aktivierung auf die Punkte in dem Menü beschränkt. In dem Beispiel richtet sich eine Sprachaktivierung auf die Menüs "Telefoneinstellungen", "Mitteilungen" und "Speicherfunktionen". Der Benutzer kann ferner per Hand das Untermenü "Mitteilungen" auswählen, ein Fall, bei dem eine Sprachaktivierung auf die Punkte "Mitteilungen Lesen" und "Miteilungen Schreiben" des fraglichen Menüs gerichtet ist. Das vorstehend beschriebene Verfahren kann auch für externe Dienste für eine Mobilstation und deren Aktivierung angewendet werden. In diesem Fall ist eine bestimmte Taste der Mobilstation für einen bestimmten Dienst wie beispielsweise einen WWW-Dienst (World Wide Web) definiert. In diesem Fall ermöglicht das Drücken und Halten der fraglichen Taste beispielsweise die Auswahl eines Lesezeichens ("Bookmarks") von WWW-Adressen durch die Verwendung eines Sprachbefehls. In dieser Anmeldung enthält die Mobilstation eine Tabelle von Buchstabensymbolen, die wie vorstehend beschrieben ausgewählt werden.
  • 3 zeigt den Arbeitsablauf eines erfindungsgemäßen Verfahrens. In Phase 30 wird erfasst, ob ein Benutzer das Drücken und Halten ausgeführt hat, das die Spracherkennungseinrichtung aktiviert, oder nicht. Wenn kein Drücken und Halten erfasst wird, bleibt die Einrichtung in einem Zustand, bei dem auf die Aktivierung der Spracherkennungseinrichtung gewartet wird. Alternativ dazu kann die Spracherkennungseinrichtung dann aktiviert werden, wenn der Benutzer auf einer berührempfindlichen Oberfläche wie einem Schirm zu schreiben beginnt. Die Aktivierung der Spracherkennungseinrichtung kann auch sprachbasiert sein. In Phase 31 wird der auf den Berührschirm geschriebene Buchstabe/Text erkannt. In Phase 32 werden die Informationen über das Drücken der Taste zu der Spracherkennungseinrichtung übertragen und/oder die Informationen über das von dem Benutzer auf den Berührschirm geschriebene oder gezeichnete alphanumerische Zeichen übertragen. Es ist auch möglich auf dem Berührschirm eine andere Figur zu zeichnen, die von einem alphanumerischen Zeichen abweicht, das in der Spracherkennung verwendet wird. In Phase 33 wird untersucht, ob der Benutzer das Drücken der Tasten oder das Schreiben auf den Berührschirm immer noch ausführt, oder nicht, ein Fall, bei dem die Informationen über diese Aktivitäten auch zu der Spracherkennungseinrichtung übertragen werden. Das kann durch das Vergleichen der Aktivitäten des Benutzers mit einem bestimmten Zeitschwellenwert geschehen, mittels dessen entschieden wird, ob der Benutzer die Eingabe von Befehlen abgeschlossen hat, oder nicht. In Phase 34 wird das von dem Benutzer ausgesprochene Wort unter Verwendung der in Phase 32 bereitgestellten Informationen erkannt.
  • 4 zeigt eine andere Arbeitsabfolge eines erfindungsgemäßen Verfahrens. Bei diesem Verfahren wird das ausgesprochene Wort zuerst herkömmlich erkannt und erst danach die von dem Benutzer bereitgestellte Beschränkung zum Beschränken des während der Erkennungsphase erhaltenen Ergebnisses verwendet. In 4 entsprechen die Phasen 30-33 den entsprechenden Phasen in 3. In Phase 35 wird die Äußerung des Benutzers durch die Verwendung aller vorgespeicherten Modelle erkannt. Die Informationen über dieses Erkennungsergebnis werden zu Phase 34 übertragen, wobei die endgültige Erkennungsentscheidung durch das Vergleichen der ersten Erkennungsentscheidung mit dem auf der Grundlage der von dem Benutzer bereitgestellten Beschränkung erhaltenen Teilsatz von Modellen getroffen wird. Die von der Phase 35 erhaltene Erkennungsentscheidung enthält einen Satz vorgeschlagener Worte, die erkannt wurden, und die den Worten, die zu Phase 34 übertragen werden, entsprechendenden Erkennungswahrscheinlichkeiten. Im Fall einer Fehlerkennung ist das Wort mit der höchsten Erkennungswahrscheinlichkeit nicht das von dem Benutzer ausgesprochene Wort. In diesem Fall kann erfindungsgemäß in Phase 34 die endgültige Spracherkennungsphase mittels des von dem Benutzer bereitgestellten Abfragekriterium ausgeführt werden und eine bessere Spracherkennungsleistung erfindungsgemäß erreicht werden.
  • Ein erfindungsgemäßes Verfahren kann auch derart arbeiten, dass das Geben einer Beschränkung und das Erkennen eines ausgesprochenen Wortes im Wesentlichen gleichzeitige Aktivitäten sind.
  • 5 zeigt die Struktur einer Mobilstation, die eine die Erfindung verwendende Spracherkennungseinrichtung 66 besitzt. Die Mobilstation umfasst für die Einrichtung typische Teile wie ein Mikrofon 61, eine Tastatur 62, einen Schirm 63, einen Lautsprecher 64 und einen die Arbeitsweise der Mobilstation steuernden Steuerblock 65. Gemäß einem Ausführungsbeispiel der Erfindung kann der Schirm 63 eine berührempfindliche Oberfläche wie ein Schirm sein. Die Figur stellt außerdem für eine Mobilstation typische Sende- und Empfangsblöcke 67, 68 dar. Der Steuerblock 65 steuert in Verbindung mit der Mobilstation auch die Arbeitsweise der Spracherkennungseinrichtung 66. Wenn die Spracherkennungseinrichtung entweder während der Trainingsphase der Spracherkennungseinrichtung oder während der tatsächlichen Spracherkennungsphase aktiviert wird, werden die von dem Benutzer gegebenen Sprachbefehle von dem Mikrofon 61 von dem Steuerblock gesteuert zu der Spracherkennungseinrichtung 66 übertragen. Erfindungemäß überträgt der Steuerblock 65 die Informationen über die von dem Benutzer über Tasten oder über auf einem Berührschirm eingegebene alphanumerische Zeichen/Figuren gegebenen Befehle zu der Spracherkennungseinrichtung 66. Die Sprachbefehle können auch durch ein separates HF-("hands free", bzw. Freihand-) Mikrophon übertragen werden. Die Spracherkennungseinrichtung ist typischerweise mittels DSP implementiert und umfasst für ihre Arbeitsweise erforderliche externe und/oder interne ROM-/RAM-Schaltkreise 69.
  • Ein Ausführungsbeispiel der Erfindung kann eine Einrichtung wie beispielsweise eine Mobilstation umfassen, die eine berührempfindliche Oberfläche wie beispielsweise einen berührempfindlichen Schirm oder eine berührempfindliche Grundfläche besitzt. In diesem Fall schreibt der Benutzer den ersten Buchstaben des zu erkennenden Wortes beispielsweise mit einem Stift oder zeichnet ihn mit einem Finger auf die berührempfindliche Oberfläche und spricht gleichzeitig das zu erkennende Wort aus (alternativ drückt der Benutzer auf die Stelle des auf dem Schirm dargestellten Buchstabens). In diesem Fall werden die Informationen über den bereitgestellten Buchstaben zu der Spracherkennungseinrichtung übertragen und die Spracherkennung wird auf Worte beschränkt, in denen der fragliche Buchstabe auftaucht. Das Erkennen wird am Besten auf Worte beschränkt, die mit dem fraglichen Anfangsbuchstaben beginnen, wie vorstehend beschrieben. In diesem Fall kann der Benutzer erfindungsgemäß beispielsweise den Buchstaben "S" auf die berührempfindliche Oberfläche schreiben und gleichzeitig den zu erkennenden Namen, beispielsweise "Smith", aussprechen, woraufhin das Erkennen auf mit dem Buchstaben "S" beginnende Namen beschränkt wird.
  • Alternativ dazu kann der Benutzer zuerst einen Buchstaben auf den Berührschirm schreiben und danach das zu erkennende Wort aussprechen. Das vorstehend beschriebene auf Tasten beruhende Verfahren und das Schreiben auf eine berührempfindliche Oberfläche können auch kombiniert werden, ein Fall, bei dem der Benutzer sowohl auf eine berührempfindliche Oberfläche schreiben als auch eine Taste drücken kann und beide Daten bei der Spracherkennung verwenden kann. Die berührempfindliche Oberfläche selbst ist nicht Teil dieser Erfindung und kann auf verschiedene Arten gemäß dem Stand der Technik implementiert werden.
  • Es ist abschätzbar, dass mit einem erfindungsgemäßen Verfahren eine im Vergleich mit Erkennungseinrichtungen gemäß dem Stand der Technik 10- bis 30-fache Erkennungsgenauigkeit erreicht werden kann, wenn die Zahl der zu erkennenden Namen dieselbe bleibt. Andererseits können mittels der Erfindung erfindungsgemäß 10- bis 30mal so viele Namen erkannt werden, während die Erkennungsgenauigkeit unverändert bleibt. Diese verbesserte Leistung beruht auf einer erfindungsgemäßen Kombination, wobei vom Benutzer durch Tasten/eine berührempfindliche Oberfläche gegebene Befehle, d.h. die Spracherkennungssuche beschränkende Abfragekriterien, mit einer Spracherkennung kombiniert werden. Ein Ausführungsbeispiel der Erfindung beruht auf der Verwendung eines Berührschirms. Ein Vorteil dieser Anmeldung ist, dass die in der Texterkennung und der Spracherkennung verwendeten Algorithmen beinahe identisch sind, wobei sich der Umfang des erforderlichen Programmspeichers in einer Einrichtung nicht besonders erhöht, bei der diese beiden Funktionen implementiert sind.
  • Vorstehend wurde eine Mobilstation als Ausführungsbeispiel der Erfindung beschrieben. Die Erfindung kann allerdings ebenso auf beispielsweise Computer angewendet werden. Die vorliegende Erfindung ist nicht auf die vorstehend beschriebenen Ausführungsbeispiele beschränkt und kann im Rahmen der beiliegenden Patentansprüche abgeändert werden.

Claims (10)

  1. Verfahren zum Erkennen einer Äußerung eines Benutzers mit einer Mobileinrichtung, wobei ein Satz von Modellen der Äußerungen zuvor gespeichert wurde und zur Spracherkennung, wobei die Äußerung des Benutzers empfangen wird, die Äußerung des Benutzers mit den vorgespeicherten Modellen verglichen wird, und auf der Grundlage des Vergleichs eine Erkennungsentscheidung getroffen wird, dadurch gekennzeichnet, dass der Benutzer durch ein Berühren der Mobileinrichtung ein den Vergleich beschränkendes Abfragekriterium bereitstellen kann, wobei das Abfragekriterium ein Element in einer Menüstruktur der Einrichtung identifiziert, ein Teilsatz von Modellen auf der Grundlage des von dem Benutzer bereitgestellten Abfragekriteriums aus den gespeicherten Modellen ausgewählt wird, wobei der Teilsatz der Modelle Unterelemente der Menüstruktur identifiziert, und ein Vergleich zum Treffen der Erkennungsentscheidung durch Vergleichen der Äußerung des Benutzers mit dem Teilsatz der Modelle durchgeführt wird.
  2. Verfahren zum Erkennen einer Äußerung eines Benutzers mit einer Mobileinrichtung, wobei ein Satz von Modellen der Äußerungen zuvor gespeichert wurde und zur Spracherkennung, wobei die Äußerung des Benutzers empfangen wird, die Äußerung des Benutzers mit den vorgespeicherten Modellen verglichen wird, und auf der Grundlage des Vergleichs eine Erkennungsentscheidung getroffen wird, dadurch gekennzeichnet, dass ein Vergleich zum Treffen einer ersten Erkennungsentscheidung durch Vergleichen der Äußerung des Benutzers mit den vorgespeicherten Modellen ausgeführt wird, der Benutzer durch ein Berühren der Mobileinrichtung zur Auswahl eines Teilsatzes von Modellen ein den Vergleich beschränkendes Abfragekriterium bereitstellen kann, wobei das Abfragekriterium ein Element in einer Menüstruktur der Mobileinrichtung identifiziert und der Teilsatz der Modelle Unterelemente der Menüstruktur identifiziert, ein endgültiger Vergleich zum Treffen der Erkennungsentscheidung durch Vergleichen der ersten Erkennungsentscheidung mit dem Teilsatz der Modelle ausgeführt wird.
  3. Verfahren nach Patentanspruch 1 oder 2, dadurch gekennzeichnet, dass die Mobileinrichtung als Reaktion auf das von dem Benutzer bereitgestellte Abfragekriterium aktiviert wird.
  4. Verfahren nach Patentanspruch 1 oder 2, dadurch gekennzeichnet, dass der Benutzer das Abfragekriterium durch Drücken einer Taste eingeben kann.
  5. Verfahren nach Patentanspruch 1 oder 2, dadurch gekennzeichnet, dass der Benutzer das Abfragekriterium durch Schreiben eines alphanumerischen Zeichens auf einer berührungsempfindlichen Oberfläche der Mobileinrichtung bereitstellen kann.
  6. Verfahren nach Patentanspruch 3 oder 4, dadurch gekennzeichnet, dass der Benutzer das Abfragekriterium durch Drücken und Halten bereitstellen kann.
  7. Mobileinrichtung mit einer Spracherkennungseinrichtung (66) zum Erkennen der Äußerung eines Benutzers, einer Speichereinrichtung (69) zum Speichern (13b) von Sprachmodellen und einer Einrichtung (61) zum Empfangen der Äußerung des Benutzers, und Vergleichseinrichtungen (19, 15a, 15b) zum Ausführen des Erkennungsvorgangs durch Vergleichen der Äußerung des Benutzers mit den in der Speichereinrichtung gespeicherten Modellen, dadurch gekennzeichnet, dass die Mobileinrichtung auch Einrichtungen (62, 63) zum Empfangen eines Abfragekriteriums (17) von dem Benutzer durch die Berührung der Mobileinrichtung, eine Einrichtung (16) zum Auswählen eines Satzes aus den gespeicherten Modellen auf der Grundlage des von dem Benutzer empfangenen Abfragekriteriums zur Beschränkung des von den Vergleichseinrichtungen (19, 15a, 15b) ausgeführten Vergleichs mit dem Satz der Modelle, und eine Einrichtung (65) zum Speichern einer Menüstruktur der Mobileinrichtung und zum Identifizieren des empfangenen Abfragekriteriums als ein Element in einer Menüstruktur der Mobileinrichtung umfasst.
  8. Mobileinrichtung nach Patentanspruch 7, dadurch gekennzeichnet, dass die Einrichtung zum Empfangen des Abfragekriteriums von dem Benutzer eine Tastatur umfasst.
  9. Mobileinrichtung nach Patentanspruch 7, dadurch gekennzeichnet, dass die Einrichtung zum Empfangen des Abfragekriteriums eine berührungsempfindliche Oberfläche umfasst.
  10. Mobileinrichtung nach Patentanspruch 7, dadurch gekennzeichnet, dass sie Einrichtungen (62, 63, 65) zum Aktivieren der Spracherkennungseinrichtung als Reaktion auf das von dem Benutzer empfangene Abfragekriterium umfasst.
DE69923253T 1998-05-25 1999-03-19 Verfahren und Vorrichtung zur Spracherkennung Expired - Lifetime DE69923253T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI981154 1998-05-25
FI981154A FI981154A (fi) 1998-05-25 1998-05-25 Menetelmä ja laite puheen tunnistamiseksi

Publications (2)

Publication Number Publication Date
DE69923253D1 DE69923253D1 (de) 2005-02-24
DE69923253T2 true DE69923253T2 (de) 2006-01-05

Family

ID=8551797

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69923253T Expired - Lifetime DE69923253T2 (de) 1998-05-25 1999-03-19 Verfahren und Vorrichtung zur Spracherkennung

Country Status (5)

Country Link
US (1) US6694295B2 (de)
EP (1) EP0961263B1 (de)
JP (3) JP5048174B2 (de)
DE (1) DE69923253T2 (de)
FI (1) FI981154A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11599332B1 (en) 2007-10-04 2023-03-07 Great Northern Research, LLC Multiple shell multi faceted graphical user interface

Families Citing this family (157)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
WO2002005263A1 (de) * 2000-07-07 2002-01-17 Siemens Aktiengesellschaft Verfahren zur spracheingabe und -erkennung
US8200485B1 (en) 2000-08-29 2012-06-12 A9.Com, Inc. Voice interface and methods for improving recognition accuracy of voice search queries
GB0029573D0 (en) * 2000-12-02 2001-01-17 Hewlett Packard Co Activation of voice-controlled apparatus
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US7010490B2 (en) * 2001-01-26 2006-03-07 International Business Machines Corporation Method, system, and apparatus for limiting available selections in a speech recognition system
US20020152075A1 (en) * 2001-04-16 2002-10-17 Shao-Tsu Kung Composite input method
DE10129005B4 (de) * 2001-06-15 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
KR100457509B1 (ko) * 2001-07-07 2004-11-17 삼성전자주식회사 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법
US20030069733A1 (en) * 2001-10-02 2003-04-10 Ryan Chang Voice control method utilizing a single-key pushbutton to control voice commands and a device thereof
EP1302929A1 (de) * 2001-10-16 2003-04-16 Siemens Aktiengesellschaft Verfahren zur automatischen Implementierung eines Spracherkenners und Spracherkenner
US7124085B2 (en) 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
DE10204924A1 (de) * 2002-02-07 2003-08-21 Philips Intellectual Property Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
DE10207895B4 (de) 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
ES2192154B1 (es) * 2002-03-12 2005-02-16 Bsh Balay S.A. Cuadro de mandos sensible al contacto.
US7260529B1 (en) * 2002-06-25 2007-08-21 Lengen Nicholas D Command insertion system and method for voice recognition applications
US7392182B2 (en) 2002-12-18 2008-06-24 Harman International Industries, Inc. Speech recognition system
US7729913B1 (en) * 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
US20050125541A1 (en) * 2003-12-04 2005-06-09 Randall Frank Integrating multiple communication modes
DE10360656A1 (de) * 2003-12-23 2005-07-21 Daimlerchrysler Ag Bediensystem für ein Fahrzeug
US20050234710A1 (en) * 2004-04-20 2005-10-20 Microsoft Corporation Canceling a speech interaction session
US7574356B2 (en) 2004-07-19 2009-08-11 At&T Intellectual Property Ii, L.P. System and method for spelling recognition using speech and non-speech input
EP1635328B1 (de) * 2004-09-14 2018-05-30 Swisscom AG Verfahren zur eingeschränkten Spracherkennung mit einer von einem entfernten System empfangenen Grammatik.
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9210252B2 (en) * 2006-07-13 2015-12-08 Alcatel Lucent End-user device personalized application notification feature
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7831431B2 (en) * 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8958848B2 (en) 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
KR20090107365A (ko) 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
KR101504212B1 (ko) 2008-11-19 2015-03-24 엘지전자 주식회사 단말기 및 그 제어 방법
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US8412531B2 (en) * 2009-06-10 2013-04-02 Microsoft Corporation Touch anywhere to speak
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
KR20120067078A (ko) * 2010-12-15 2012-06-25 삼성전자주식회사 터치 스크린을 구비한 휴대용 단말기에서 어플리케이션 정보를 제공하고 어플리케이션을 실행하기 위한 장치 및 방법
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120280915A1 (en) * 2011-05-02 2012-11-08 Nokia Corporation Method and apparatus for facilitating interacting with a multimodal user interface
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
EP2755202B1 (de) * 2011-09-09 2016-07-13 Asahi Kasei Kabushiki Kaisha Spracherkennungsgerät
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
KR101987255B1 (ko) * 2012-08-20 2019-06-11 엘지이노텍 주식회사 음성 인식 장치 및 이의 음성 인식 방법
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (de) 2013-06-09 2022-01-12 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10580405B1 (en) * 2016-12-27 2020-03-03 Amazon Technologies, Inc. Voice control of remote device
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP7056185B2 (ja) * 2018-01-31 2022-04-19 トヨタ自動車株式会社 情報処理装置および情報処理方法
US11735169B2 (en) * 2020-03-20 2023-08-22 International Business Machines Corporation Speech recognition and training for data inputs

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60158496A (ja) * 1984-01-30 1985-08-19 株式会社東芝 音声認識装置
US4866778A (en) 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
JPS63300297A (ja) * 1987-05-30 1988-12-07 キヤノン株式会社 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH0336855A (ja) * 1989-07-04 1991-02-18 Matsushita Electric Ind Co Ltd 携帯電話装置
US5020107A (en) * 1989-12-04 1991-05-28 Motorola, Inc. Limited vocabulary speech recognition system
JPH05119793A (ja) * 1991-10-25 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
FI97919C (fi) 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JPH06124097A (ja) * 1992-10-13 1994-05-06 Hitachi Ltd 携帯型端末装置
US5335276A (en) * 1992-12-16 1994-08-02 Texas Instruments Incorporated Communication system and methods for enhanced information transfer
JP3278222B2 (ja) * 1993-01-13 2002-04-30 キヤノン株式会社 情報処理方法及び装置
JP3581873B2 (ja) * 1993-04-21 2004-10-27 和之 池田 自動麻酔記録装置
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
JPH07311656A (ja) * 1994-05-17 1995-11-28 Toshiba Corp マルチモーダル文字入力装置
EP0718823B1 (de) * 1994-12-23 2000-09-20 Siemens Aktiengesellschaft Verfahren zur Umwandlung von sprachlich eingegebenen Informationen in maschinenlesbare Daten
JPH08202386A (ja) * 1995-01-23 1996-08-09 Sony Corp 音声認識方法、音声認識装置、およびナビゲーション装置
EP0746136A3 (de) 1995-06-02 1999-06-23 Nokia Mobile Phones Ltd. Automatisches Kreditkartenanrufsystem
FI111893B (fi) 1995-06-02 2003-09-30 Nokia Corp Menetelmä ja laite puhelimen ohjaamiseksi komennoilla
US5544654A (en) * 1995-06-06 1996-08-13 Acuson Corporation Voice control of a medical ultrasound scanning machine
EP0766442B1 (de) 1995-09-29 2003-06-11 Nokia Corporation Telekommunikationsverfahren und eine zu seiner Durchführung geeignete Vorrichtung
JPH09116940A (ja) * 1995-10-19 1997-05-02 Matsushita Electric Ind Co Ltd コンピュータ・電話統合システム
US5692032A (en) 1995-11-27 1997-11-25 Nokia Mobile Phones Ltd. Mobile terminal having one key user message acknowledgment function
US6055333A (en) * 1995-12-28 2000-04-25 Motorola, Inc. Handwriting recognition method and apparatus having multiple selectable dictionaries
US5794142A (en) 1996-01-29 1998-08-11 Nokia Mobile Phones Limited Mobile terminal having network services activation through the use of point-to-point short message service
GB2314726B (en) 1996-06-28 2000-07-12 Nokia Mobile Phones Ltd User interface
US6009336A (en) * 1996-07-10 1999-12-28 Motorola, Inc. Hand-held radiotelephone having a detachable display
US5870683A (en) 1996-09-18 1999-02-09 Nokia Mobile Phones Limited Mobile station having method and apparatus for displaying user-selectable animation sequence
JPH10124291A (ja) * 1996-10-17 1998-05-15 Casio Comput Co Ltd 移動端末音声認識通信システム
US5878351A (en) 1996-11-07 1999-03-02 Nokia Mobile Phones Limited Methods and apparatus for providing delayed transmission of SMS delivery acknowledgement, manual acknowledgement and SMS messages
US6084951A (en) * 1997-04-23 2000-07-04 Nortel Networks Corporation Iconized name list
DE19742054A1 (de) * 1997-09-24 1999-04-01 Philips Patentverwaltung Eingabesystem wenigstens für Orts- und/oder Straßennamen
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
US6401065B1 (en) * 1999-06-17 2002-06-04 International Business Machines Corporation Intelligent keyboard interface with use of human language processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11599332B1 (en) 2007-10-04 2023-03-07 Great Northern Research, LLC Multiple shell multi faceted graphical user interface

Also Published As

Publication number Publication date
JP2000056792A (ja) 2000-02-25
EP0961263B1 (de) 2005-01-19
JP2015018276A (ja) 2015-01-29
FI981154A0 (fi) 1998-05-25
DE69923253D1 (de) 2005-02-24
FI981154A (fi) 1999-11-26
EP0961263A3 (de) 2000-01-05
US6694295B2 (en) 2004-02-17
EP0961263A2 (de) 1999-12-01
JP2011175265A (ja) 2011-09-08
JP5048174B2 (ja) 2012-10-17
US20020032567A1 (en) 2002-03-14

Similar Documents

Publication Publication Date Title
DE69923253T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE69938344T2 (de) Handgeschriebene und sprach-kontrolle von fahrzeugkomponenten
DE112014006614B4 (de) Benutzerschnittstellensystem, Benutzerschnittstellensteuereinrichtung, Benutzerschnittstellensteuerverfahren und Benutzerschnittstellensteuerprogramm
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE69817844T2 (de) Verfahren und vorrichtung zur spracherkennungscomputereingabe
DE10235548B4 (de) Verfahren und Vorrichtung für die Prädiktion einer Textnachrichteneingabe
US5329609A (en) Recognition apparatus with function of displaying plural recognition candidates
US6487569B1 (en) Method and apparatus for organizing notes on a limited resource computing device
CN1892817A (zh) 语音识别辅助的合成字符的自动完成
DE112010001796T5 (de) Eingabevorrichtung
DE102015109379A1 (de) Systeme und Verfahren für ein Navigationssystem, das eine Suche mit Diktieren und Teilübereinstimmung verwendet
EP2815396A1 (de) Verfahren zum phonetisieren einer datenliste und sprachgesteuerte benutzerschnittstelle
JP2002116793A (ja) データ入力システム及びその方法
DE69326900T2 (de) Spracherkennungssystem
EP1125278A1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
Noyes et al. A review of speech recognition applications in the office
DE102017211447B4 (de) Verfahren zum Auswählen eines Listeneintrags aus einer Auswahlliste einer Bedienvorrichtung mittels Sprachbedienung sowie Bedienvorrichtung
DE60201907T2 (de) Darstellung einer komprimierten liste für sprachgesteuerte benutzerschnittstellen
CN1275174C (zh) 具有语音辨识辅助功能的中文输入方法及其***
DE10051450A1 (de) System und Verfahren zur Sprachverarbeitung
CN1139282C (zh) 用于移动通信设备的双拼输入法
EP2290327A1 (de) Verfahren zum Betrieb eines Navigationssystems
DE19804047A1 (de) Verfahren und Einrichtung zur Erhöhung der Erkennungswahrscheinlichkeit von Spracherkennungssystemen
WO2001013215A1 (de) Vorrichtung zur umwandlung von sprachkommandos und/oder sprachtexte in tastatur- und/oder mausbewegungen und/oder texte

Legal Events

Date Code Title Description
8364 No opposition during term of opposition