DE69909806T2 - Graphische Benutzerschnittstelle zur Navigation in Grammatiken eines Spracherkennungssystems - Google Patents
Graphische Benutzerschnittstelle zur Navigation in Grammatiken eines Spracherkennungssystems Download PDFInfo
- Publication number
- DE69909806T2 DE69909806T2 DE69909806T DE69909806T DE69909806T2 DE 69909806 T2 DE69909806 T2 DE 69909806T2 DE 69909806 T DE69909806 T DE 69909806T DE 69909806 T DE69909806 T DE 69909806T DE 69909806 T2 DE69909806 T2 DE 69909806T2
- Authority
- DE
- Germany
- Prior art keywords
- grammar
- valid
- active
- dialog box
- interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 2
- 230000009471 action Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 235000014121 butter Nutrition 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Digital Computer Display Output (AREA)
- Traffic Control Systems (AREA)
- Navigation (AREA)
Description
- TECHNISCHER BEREICH
- Die vorliegende Erfindung bezieht sich auf Spracherkennungssysteme, und speziell auf eine graphische Benutzerschnittstelle für den Dialog mit vielfältigen anwendungsbezogenen Grammatiken.
- HINTERGRUND DER STANDES DER TECHNIK
- Eine graphische Benutzerschnittstelle eines Computerbetriebssystems gestattet es einem Benutzer, viele Anwendungen durch manuelles Bedienen einer Zeigereinrichtung zu steuern, um einen Cursor auf anwendungsbezogene Piktogramme zu positionieren. Die Zeigervorrichtung wird auch innerhalb einer spezifischen Anwendung verwendet, um den Betrieb der Anwendung zu steuern, typischerweise durch Pull-down-Menüs und Dialogfelder.
- Spracherkennungssysteme können auch eine derartige Anwendungssteuerung eher durch eine gesprochene Eingabe ausführen als durch eine manuell bediente Zeigervorrichtung. Viele Computeranwendungen können mit einem Spracherkennungsgerät registriert werden, wie z. B. Textverarbeitung, E-Mail, etc.. Jede derartige Anwendung kann eine angeschlossene bzw. assoziierte Grammatik eines gültigen Vokabulars und deren Gebrauch besitzen. Diese Grammatiken unterscheiden sich in ihrer Komplexität. Eine Grammatik kann so einfach wie eine Liste von Befehlswörtern sein, wie z. B. "open", "close", "save", "print" bzw. "öffne", "schließe", "speichere", "drucke", etc.. Eine derartige einfache Grammatik kann einem Nutzer auch visuell in der vertrauten Struktur von Pull-down-Menüs angezeigt werden. Kompliziertere Grammatiken emulieren das Gebrauchen der natürlichen Sprache und können komplexe Phrasen, wie z. B.: "Schreibe den ersten Absatz kursiv" grammatikalisch definieren.
- Eine Grammatik wird eigentlich als die Spezifikation von Wortfolgestrukturen angesehen, welche in einer gegebenen Sprache oder Anwendung zugelassen sind. Die am meisten gebräuchlichen Arten von Grammatiken sind als kontextfreie Grammatiken (CFGs) bekannt, welche beinhalten: einen Satz von Endstelle- bzw. End-Symbolen, welche in Endesequenzen aufscheinen (z. B. Wörter und Zeichensetzung), einen Satz von Nicht-Endstelle- bzw. End-Symbolen, welche auf andere Symbole ausgedehnt werden (z. B. "NP" für noun phrase bzw. Hauptwort, "VP" für verb phrase bzw. für Verb), ein spezifisches Nicht-End-Symbol, welches als Start-Symbol ausgewiesen wird (z. B. "s-maj" für major sentence bzw. Hauptsatz), und einen Satz von Rückschreibregeln bzw. Umschreibregeln, von denen jede ein einzelnes Nicht-End-Symbol auf der left-hand side (LHS) bzw. linken Seite und ein oder mehrere Symbole auf der right-hand side (RHS) bzw. rechten Seite besitzt. Eine kontextfreie Grammatik weist eine oder mehrere Strukturen jeder gültigen Wortfolge in einer Sprache zu.
- Kontextfreie Grammatiken werden oft in der Backus-Naur-Form(BNF-)Darstellungsart gegeben. In der BNF sind Nicht-End-Symbole in <Klammern> beinhaltet, und die LHS und RHS einer Rückschreib- bzw. Umschreibregel werden durch ein Anzeigesymbol ':: = ' getrennt, welches auch als "beinhaltet" gelesen werden kann. In einem Beispiel einer einfachen Grammatik ist:
<SATZ> .. = <SUBJEKT> <VERB-Phrase> <SUBJEKT> .. = John | Mary <VERB-Phrase> .. = <VERB> <OBJEKT> <VERB> .. = isst | trinkt <OBJEKTE> .. = Wein | Käse - Der Benutzer bzw. Nutzer eines Spracherkennungssystems kann eine gewisse Schwierigkeit haben, vielerlei Anwendungen durch einen gesprochenen Befehl zu betreiben, wenn jede Anwendung ihre eigene unterschiedlich zugeordnete Grammatik eines gültigen Vokabulars und deren Gebrauch besitzt. Als Ergebnis kann zu irgendeinem gegebenen Anlass ein derartiger Nutzer nicht wissen, welche Befehle gesprochen werden können und welche durch eine gegebene Anwendung erkannt werden. In
US-A-5,812,977 werden Piktogramme gezeigt, welche den Wörtern des aktiven Vokabulars entsprechen. In dem Dokument "Patent Abstracts of Japan, Band 96, Nr. 6, 28.06.96 undJP 08 044384A - ZUSAMMENFASSUNG DER ERFINDUNG
- Eine bevorzugte Ausführungsform der vorliegenden Erfindung liefert eine graphische Benutzerschnittstelle eines Spracherkennungssystems für den Benutzerdialog mit wenigstens einer Grammatik eines gültigen Vokabulars und Benutzen für eine Anwendung, welche für das Spracherkennungssystem zugänglich ist. Die Benutzerschnittstelle beinhaltet: Ein interaktives Dialogfeld in einem Teil des Bildschirms, einen Grammatik-Identifizier-Modul, welcher innerhalb des Dialogfeldes angezeigt wird, welches eine aktive Grammatik beschreibt, einen Such-Identifizier-Modul, welches innerhalb des Dialogfeldes angezeigt wird, welcher einen Grammatik-Suchmodus beschreibt, zum Bestimmen gültiger Eingaben entsprechend der aktiven Grammatik, eine aktuelle Eingabe, welche innerhalb des Dialogfeldes angezeigt wird, welche eine gesprochene Eingabe beschreibt, und eine gültige Grammatikliste, welche innerhalb des Dialogfeldes angezeigt wird, welche Beispiele des gültigen Vokabulars und des Benutzens entsprechend dem Grammatik-Suchmodus für die aktive Grammatik auflistet. Das Dialogfeld kann ferner eine aktive Grammatikanzeige innerhalb des Dialogfeldes beinhalten, welches die aktive Grammatik anzeigt und welches benutzt werden kann, um interaktiv die aktuelle Eingabe auszuwählen.
- In einer weiteren Ausführungsform sind die aktive Grammatik oder der Grammatik-Suchmodus oder beide interaktiv auswählbar, indem das Dialogfeld benutzt wird. In ähnlicher Weise kann eines der Beispiele, welche in der gültigen Grammatikliste angezeigt werden, interaktiv als eine Eingabe für die Anwendung der aktiven Grammatik auswählbar sein.
- Zusätzlich oder alternativ kann der Grammatik-Suchmodus alle Wortphrasen wenigstens eines Wortes bestimmen, welche in der aktiven Grammatik gültig sind, oder Wortphasen wenigstens eines Wortes, welche die aktuelle Eingabe enthalten und welche in der aktiven Grammatik gültig sind. Derartige Wortphrasen können ferner darauf beschränkt werden, mit der aktuellen Eingabe zu starten.
- Eine bevorzugte Ausführungsform kann auch bezüglich der Kürze die angezeigten Beispiele in der gültigen Grammatikliste durch Benutzen eines Matrix-basierten Algorithmus voreinstellen. Zum Beispiel kann der Matrix-basierte Algorithmus eine aus einem Mittelwert erzeugte Beispiellänge festlegen, um die Beispiele bezüglich der Kürze voreinzustellen.
- Eine bevorzugte Ausführungsform beinhaltet auch ein Verfahren der Benutzerinteraktion über eine graphische Benutzerschnittstelle mit wenigstens einer Grammatik eines gültigen Vokabulars und die Benutzung für eine Anwendung, welche für ein Spracherkennungssystem zugänglich ist. Das Verfahren beinhaltet: das Erschaffen eines interaktiven Dialogfeldes in einem Teil eines Bildschirms; Darstellen innerhalb des Dialogfeldes eines Grammatik-Identifizier-Moduls, welches eine aktive Grammatik beschreibt, ein Such-Identifizier-Modul, welches einen Grammatik-Suchmodus zum Bestimmen gültiger Eingaben entsprechend der aktiven Grammatik beschreibt, und eine aktuelle Eingabe, welche eine gesprochene Eingabe beschreibt; und Erzeugen und Darstellen des Dialogfeldes einer gültigen Grammatikliste, welche Beispiele eines gültigen Vokabulars aufzeigt, und das Gebrauchen entsprechend des Grammatik-Suchmodus für die aktive Grammatik. Das Dialogfeld kann ferner eine aktive Grammatikanzeige beinhalten, innerhalb des Dialogfeldes, welche die aktive Grammatik anzeigt und welche benutzt werden kann, um interaktiv die aktuelle Eingabe auszuwählen.
- In einer weiteren Ausführungsform werden die aktive Grammatik oder der Grammatik-Suchmodus oder beide interaktiv ausgewählt, indem das Dialogfeld genutzt wird. In ähnlicher Weise kann eines der Beispiele, welche in der gültigen Grammatikliste angezeigt werden, als eine Eingabe für die Anwendung der aktiven Grammatik ausgewählt werden.
- Zusätzlich oder alternativ kann der Grammatik-Suchmodus alle Wortphrasen von wenigstens einem Wort bestimmen, welche in der aktiven Grammatik gültig sind, oder Wortphrasen von wenigstens einem Wort, welche die aktuelle Eingabe beinhalten und welche in der aktiven Grammatik gültig sind. Solche Wortphrasen können ferner darauf beschränkt werden, mit der aktuellen Eingabe zu beginnen.
- Eine bevorzugte Ausführungsform kann bezüglich der Kürze auch die Beispiele voreinstellen, welche in der gültigen Grammatikliste durch das Benutzen eines Matrix-basierten Algorithmus angezeigt werden. Zum Beispiel kann der Matrix-basierte Algorithmus eine aus einem Mittelwert erzeugte Beispiellänge festlegen, um die Beispiele bezüglich der Kürze voreinzustellen.
- KURZE BESCHREIBUNG DER ZEICHNUNGEN
- Die vorliegende Erfindung wird schließlich besser mit Bezug auf die nachfolgende detaillierte Beschreibung verstanden, welche mit den beigefügten Zeichnungen gegeben wird, in welcher:
-
1 stellt eine graphische Benutzerschnittstelle für ein Spracherkennungssystem entsprechend einer bevorzugten Ausführungsform der vorliegenden Erfindung dar. - DETAILLIERTE BESCHREIBUNG DER SPEZIFISCHEN AUSFÜHRUNGSFORMEN
- Für jede Anwendung, welche mit einem Spracherkennungssystem registriert wird, wird das gesamte zulässige Vokabular in jedem gegebenen Moment als "die aktive Grammatik" oder einfach als "die Grammatik" bezeichnet. Wie hier benutzt, ist "Grammatik" die Kurzbezeichnung für eine spezielle Form einer in Faktoren zerlegten BNF-Grammatik, wobei Überschreibregeln immer ein einzelnes Nicht-End-Symbol auf der LHS und eine Folge von Symbolen (Endstelle, Nicht-Endstelle oder beides) auf der RHS besitzen, und wobei es keine anderen "speziellen" Symbole, wie z. B. Boolesche, oder die der Zeichensetzung gibt.
- Jede Grammatik hat die Fähigkeit, sich in "Topics" bzw. "Themen" aufzuteilen. Ein Topic bzw. Thema ist ein Nicht-End-Symbol in einer Grammatik, deren Vorgänger auch ein Thema ist, wie es entsprechend dem Stand der Technik wohl bekannt ist. Das Start-Symbol einer Grammatik ist per Definition ein Thema, und damit müssen alle Grammatiken wenigstens ein Thema besitzen.
- Die Idee der Themen besteht darin, Regeln in der Grammatik zu definieren, welche sie in verstehbare Felder der Funktionalität abbilden, welche die Sprache abdeckt. Für ein einfaches Rechnerbeispiel:
Start → Addition |
Subtraktion |
Multiplikation |
Division |
Berechne
Addition → "Addiere" Num AddiereUnd Num
Subtraktion → "Subtrahiere" Num SubtrahiereVon Num
Multiplikation → "Multipliziere" Num MultipliziereMit Num
Division → "Dividiere" Num DividiereDurch Num
"Dividiere" Num DividiereMit Num
Berechne → "Berechne" Berechne den Ausdruck
... und so weiter. Die Themen in diesem Beispiel erstrecken sich nur auf einen Pegel bzw. ein Niveau innerhalb der Grammatik, aber komplexe Grammatiken können diese Vorgehensweise nutzen, um die Sprache, welche sie definieren, in verschiedene Untermengen aufzuteilen. Es sollte beachtet werden, dass einge, aber nicht notwendigerweise alle, Nicht-End-Symbole Themen sind. Das Start-Symbol muss ein Thema sein. Irgendein anderes Nicht-End-Symbol B kann ein Thema sein, wenn in der Grammatik eine Rückschreibregel existiert:
A :: = B,
und A ist auch ein Thema. - Eine bevorzugte Ausführungsform der vorliegenden Erfindung, ein "What Can I Say"- (WCIS-) bzw. "Was kann ich Sagen"-Fenster, gibt einem Benutzer die Fähigkeit, die Themen verschiedener Grammatiken anzusehen, welche mit den Anwendungen verbunden sind, welche in einem Spracherkennungssystem aktiv sind. Jede Anwendungsgrammatik, welche zusammen mit dem System registriert ist, beinhaltet Information, welche sich darauf bezieht, wie sie sich selbst in dem WCIS-Fenster darstellt. Das WCIS liefert dem Nutzer eine visuelle Anzeige eines erlaubten Vokabulars und das Benutzens, wobwi Wörter, Phrasen und Sätze eingeschlossen sind.
- Als vorläufige Sachlage wird festgestellt, dass das vollständige WCIS-Fenster nicht zu allen Zeiten dargestellt werden soll. Die Menge an Information, welche für das WCIS erhältlich ist und von ihm bearbeitet wird, erfordert beträchtliche Systemrechenresourcen. Darüber hinaus erfordert der Umfang an Information, welcher dargestellt wird, signifikanten Raum an Anzeigebildschirm. Demzufolge ist das fortlaufende Anzeigen des gesamten WCIS unpraktisch, und das WCIS-Fenster arbeitet wie ein Dialogfeld, in dem, dass es nur zeitweise angezeigt wird, wenn es durch den Nutzer aufgerufen wird.
- Eine bevorzugte Ausführungsform, wie in
1 gezeigt wird, beinhaltet ein WCIS-Fenster10 , welches einen Teil des Anzeigeschirms belegt. An dem oberen Ende des WCIS-Fensters10 zeigt1 ein Grammatik-Identifizier-Modul12 , welches eine Grammatik-Themensteuerung beinhaltet, welche es einem Nutzer gestattet, interaktiv eine aktive Grammatik auszuwählen. Das Grammatik-Identifizier-Modul12 benutzt eine Pull-down-Menüliste, um all die Grammatiken alphabetisch anzuzeigen. Zusätzlich kann ein Tiefebereich bzw. Umfang in jeder Grammatik in dem Grammatik-Identifizier-Modul12 angezeigt werden. Z. B. kann der Grammatik-Identifizier-Modul12 Grammatiken für alle aktiven Befehle beinhalten (eine Obermenge aller aktiven Befehlssätze), für globale Befehle, welche überall innerhalb der Sprachanwendung aktiv sind, für verschiedene Wortprozessoren, für allgemeine Menü-Navigation, E-Mail-Anwendungen, etc. - Da die Grammatiken große, komplexe, natürliche Sprachgrammatiken beinhalten können, liefert das WCIS
10 vielfältige Funktionsweisen, wobei Wort-für-Wort-Suche, Beispielsuche, Baumsuche und eine Liste aller Wörter beinhaltet sind. Anzeigeseiten, welche mit verschiedenen Funktions- bzw. Betriebsweisen verbunden sind, sind in einer WCIS-Such-Tab-Steuerung enthalten, welche ein Such-Identifizier-Modul14 anzeigt. Das Such-Identifizier-Modul14 beschreibt verschiedene erhältliche bzw. zugängliche Grammatik-Suchmoden zum Bestimmen aktueller gültiger Eingaben entsprechend der aktiven Grammatik. - Eine aktuelle Eingabe
16 wird auch innerhalb des WCIS10 angezeigt, welche eine aktuelle gesprochene Eingabe beschreibt. Unterhalb der aktuellen Eingabe16 ist die gültige Grammatikliste18 , welche Beispiele eines gültigen Vokabulars und die Benutzung entsprechend dem Grammatik-Suchmodus für die aktive Grammatik auflistet. Typischerweise werden die Beispiele in der gültigen Grammatikliste18 auch durch die aktuelle Eingabe16 erzwungen. - Das Arbeiten des WCIS
10 variiert abhängig von dem Suchmodus, welcher ausgewählt wird und in dem Such-Identifizier-Modus14 angezeigt wird. Die Baumsuche präsentiert dem Nutzer eine visuelle Anzeige der aktiven Grammatik, welche von der aktuellen Eingabe16 startet. Die aktive Grammatik wird in der gültigen Grammatikliste18 angezeigt. Der Nutzer kann die Themen in der gültigen Grammatikliste18 erweitern, um tiefer in die Grammatik zu schauen. Beim tieferen Arbeiten in der Grammatik über die gültige Grammatikliste18 wird auch die Anzeige der aktuellen Eingabe16 verändert. Durch Manipulieren des Suchbaumes kann der Nutzer sehen, wie sich die aktuelle Eingabe16 ändert. Die Anzeige der Themen in der gültigen Grammatikliste18 kann auch das Nutzen von Ellipsen nach den Themen beinhalten, welche prolongationsfähig sind, und ein "X"-Zeichen vor dem Thema, um anzuzeigen, dass das Thema eine Teilform eines gültigen Themas ist, und ein "√"-Zeichen vor dem Thema, um anzuzeigen, dass es eine vollständige Form eines gültigen Themas ist. - Das Auswählen der Beispielsuche mit dem Such-Identifizier-Modul
14 erzeugt Beispiele eines gültigen Vokabulars und das Anwenden, welches in dem aktuell ausgewählten Thema beinhaltet ist, wie dies in der aktuellen Eingabe16 gezeigt wird. Der Nutzer kann die Beispielsuche durch Eingeben von Schlüsselwörtern begrenzen, welche die erzeugten Sätze beinhalten müssen. Z. B. durch das Klicken auf "Addition" bzw. "Hinzufügen" wird das Thema Sätze erzeugen wie "Füge drei und fünf hinzu", "Füge vier bis zehn dazu" und "Füge dreiundsiebzig mit zweihundertacht hinzu". Jedoch durch das Eintippen von "und" in das Schlüsselwortfeld werden die erzeugten Beispiele auf "Füge drei und fünf hinzu" und "Füge dreiundsiebzig mit zweihundertacht hinzu" begrenzt. "Füge vier bis zehn hinzu" würde nicht erzeugt. Der Nutzer kann die Anzahl der erzeugten Beispiele steuern, und diese Eingabe des Suchens ist auf das Thema begrenzt, welches in der Grammatik-Themensteuerung ausgewählt wird. - Die Wort-für-Wort-Suche gestattet es dem Nutzer, einen gültigen Satz zu bilden, indem er aus einer Liste von Startwörtern auswählt, und dann aus Wörtern, welche dem folgen, was bereits gegenwärtig ist. Alternativ kann der Nutzer einen Satz eingeben, um zu prüfen, ob er gültig ist. Wenn der Nutzer einen Satz eingibt, werden all die gültigen nächsten Wörter unterhalb des Suchfensters in einem Listenfeld angezeigt. Die Suche ist auf das Thema begrenzt, welches in der Grammatikthemensteuerung ausgewählt ist.
- Andere Such- und Anzeigeformen sind auch möglich. Die Liste aller Wörter zeigt all die Wörter in der Grammatik an. Zusätzlich kann ein WCIS-Fenster ein Diktatgrammatikfenster anzeigen. Dieses Diktatgrammatikfenster hat ein einzelnes Diktierthema in der Grammatik-Themensteuerung und besitzt keine anderen Unterthemen. Wenn der Nutzer das Diktatthema mit dem Themen-Auswählmodus auswählt, zeigt das Listenfeld die Diktatwörter an, und der Nutzer kann die Diktatgrammatik für das gültige Vokabular suchen.
- Die Beispiele, welche in dem WCIS angezeigt werden, werden durch stochastische Generierung hergestellt. Ausgehend vom Start-Symbol werden Grammatikregeln zufällig gewählt, um einen zufällig gültigen grammatikalischen Baum zu erzeugen, in wel chem die End-Symbole den erzeugten Satz bilden. Solche stochastischen Generieralgorithmen sind entsprechend dem Stand der Technik gut bekannt.
- Um Beispielssätze mit einem einzelnen Schlüsselwort zu erzeugen, wird eine Regel gewählt, wobei das Schlüsselwort irgendwo auf der rechten Seite ist. Dann wird die Grammatik rekursiv rückwärts bearbeitet, um eine Regel zu bekommen, welche das Start-Symbol auf der linken Seite hat, wobei jegliche grammatikalische Bauminformation bewahrt bleibt. Dies erzeugt einen teilweisen grammatikalischen Baum, mit Nicht-End-Symbolen als Blätter des grammatikalischen Baumes. Die Nicht-Endstellen werden eingefügt, indem der blanke stochastische Generator, welcher oben beschrieben wurde, benutzt wird, wobei die fragliche Nicht-Endstelle als das Start-Symbol benutzt wird. Zum Erzeugen von Sätzen mit mehr als einem Schlüsselwort werden viele Sätze erzeugt, wobei die Technik des einzelnen Schlüsselworts benutzt wird. Dann werden alle Beispiele, welche nicht alle Schlüsselwörter aufweisen, ausgeschaltet bzw. verworfen.
- Um die erzeugten Beispielsätze bezüglich ihrer Kürze zu beeinflussen, wird die Grammatik in eine Matrix verwandelt. Eine quadratische Matrix M wird initialisiert, welche aus Integers bzw. ganzen Zahlen besteht, mit null in jeder Zelle. Die quadratische Matrix hat genau so viele Zeilen und Spalten, wie es Nicht-End-Symbole in der Grammatik gibt. Jedes Mal, wenn ein Nicht-End-Symbol <j> auf der RHS einer Rückschreibregel erscheint, nehme das LHS-Nicht-End-Symbol <i> dieser Regel und addiere eins zu der Matrixzelle M(i, j). Dann, jedes Mal, wenn ein Nicht-End-Symbol <i> auf der LHS einer Rückschreibregel erscheint, subtrahiere eins von der Diagonale M(i, j).
- Die Matrix wird dann als ein Satz von linearen Gleichungen gelöst, indem eine der wohl bekannten Diagonalverfahren genutzt wird. Wenn das System gelöst ist, wird eine Diagonalmatrix erhalten, wobei all die Werte auf den Diagonalzellen positiv sind und an anderen Stellen null sind. Dann wird für jede Regel eine über einen Mittelwert erzeugte Beispiellänge bestimmt, indem die Summe über die Symbole auf der RHS gebildet wird, wo jedes End-Symbol einen Wert von 1 besitzt und jedes Nicht-End-Symbol den Wert hat, welcher in der quadratischen Matrix M(i, j) angezeigt wird. Diese über den Mittelwert erzeugte Beispiellänge wird benutzt, um den stochastischen Generator voreinzustellen, um die Brauchbarkeit der Beispielsätze zu verbessern, welche durch die WCIS erzeugt werden. Anderenfalls können die Beispiele dazu neigen, überlang zu werden und schwer verständlich zu sein. Eines der größten Probleme bei einer Benutzerschnittstelle für natürliche Sprache, welche nicht das gesamte natürliche Englisch enthält, besteht darin, dass der Nutzer versucht, etwas zu sagen, was nicht durch die Grammatik definiert ist. Das WCIS-Fenster gibt dem Nutzer den Zugriff auf das Anwenden der Grammatik-Suchmöglichkeiten neben dem normalen Korrigiermechanismus, so dass der Nutzer bestimmen kann, ob etwas, was sie sagen wollen, gültig ist, und wenn dies nicht der Fall ist, was sie sagen können, so dass die gewünschte Aufgabe erfüllt wird. Wenn der Nutzer einen Satz eingibt, zeigt ein Listenfeld unterhalb des Ausgabefeldes mögliche Vervollständigungen für die bereits eingegebenen Tastendrucke. Der Nutzer kann doppelklicken oder sagen "take" bzw. "übernehme", um zu ersetzen, was er mit einer speziellen Vervollständigung eingegeben hat. Die Vervollständigungen berücksichtigen sowohl die Diktiergrammatik und die Anwendungsgrammatik. Wenn ein Nutzer ein Wort eingibt, wird das System all die individuellen Wörter sowohl in der Diktier- als auch der Anwendergrammatik erfassen, welche mit den eingegebenen Buchstaben beginnen. Wenn die eingegeben Buchstaben ein Wort in der Anwendungsgrammatik vervollständigen, wird das System all die Wörter anzeigen, welche nach dem eingegebenen Wort kommen können und noch ein Teil eines gültigen Satzes sein können.
- Die folgenden Beispiele zeigen, was angezeigt würde, wenn der Nutzer eingibt:
Aktueller Satz: b - 1. baby
- 2. bath
- 3. bet
- 4. bind
- 5. bold
- 6. Butter
- 7. bold ...
- 8. boldface ...
- 1. boat
- 2. bold
- 3. Bone
- 4. bold ...
- 5. boldface ...
- 6. boldtype ...
- 1. bold the ...
- 2. bold this
- 3. bold on
- 4. bold off
- Die Ellipsen nach einem Wort in der Liste zeigen, dass das Wort ein unvollständiger Befehl in der Anwendungsgrammatik ist. Wenn das Wort ausgewählt ist, werden die Wörter, welche ihm folgen, darunter aufgelistet. Das Benutzen von fett, Kursivschrift, Farbe, etc. kann in dem Listenfeld beinhaltet sein, wenn es notwendig ist, Dinge klarzustellen, wie z. B. Aktionen, Befehle und das Diktieren von Wörtern.
- Zusätzlich ist jeder gültige Satz, welcher in dem WCIS-Fenster dargestellt wird, trainierbar. D. h., der Nutzer kann Beispiele oder Merkmale des Nutzers, welcher den Satz spricht, liefern, welche das Spracherkennungssystem in das Erkennungsgerät integriert. Ein zustimmendes Klicken auf den Satz spricht ein Kontaktmenü mit einer Auswahl zum Trainieren des Satzes an.
- Der Nutzer kann auch einen Begriff auf der Grammatik-Themensteuerung des WCIS-Fensters trainieren. Beim Klicken auf "train" bzw. "trainieren" auf dem Kontextmenü gestattet es dem Nutzer, das Trainieren von zufällig erzeugten Sätzen innerhalb des ausgewählten Themas auszuführen.
- Das WCIS-Fenster gestattet es auch, Grammatiken des Kunden zu editieren bzw, auszugeben. Jedoch sind die Grammatiken nicht im Besitz der Spracherkennungsmaschine mit dem WCIS-Fenster, sondern sind Teil der Benutzerschnittstelle für Sprachprogrammieranwendungen (SAPI) des Kunden, welche mit der Grammatik verbunden sind. Deshalb können die Grammatiken nicht direkt durch die WCIS ausgegeben werden, sondern müssen indirekt durch die WCIS ausgegeben werden. Wenn ein SAPI-Kunde eine Grammatik mit dem Spracherkennungsgerät registriert, liefert der Kunde Information bezüglich der Art und Weise, wie die Grammatik ausgegeben wird, indem spezifiziert wird, welche der WCIS-Standardausgabeverfahren (Add, Edit, Delete, Explore, Properties, bzw. Addiere, Gebe aus, Lösche, Untersuche, Eigenschaften, etc.) gültig sind. Wenn der Nutzer auf eine Grammatik in WCIS als richtig klickt, checkt das System, um zu sehen, welche Ausgabemoden diese Grammatik unterstützt. Irgendwelche unterstützten Verfahren werden in dem Kontextmenü reflektiert, welches als Ergebnis des Mausklicks angezeigt wird. Wenn der Nutzer auf eine dieser Verfahren klickt, meldet das WCIS dem SAPI-Kunden die angeforderte Modifikation über ein zugehöriges Meldezeichen. Der Kunde kann dann ein geeignetes Dialogfeld öffnen oder geeignete Aktionen ausführen.
Claims (8)
- Graphishe Benutzerschnittstelle eines Spracherkennungssystems für den Benutzerdialog mit wenigstens einer Grammatik eines gültigen Vokabulars und Benutzen für eine Anwendung, welche für das Spracherkennungssystem zugänglich ist, dadurch gekennzeichnet, dass die Schnittstelle aufweist: ein interaktives Dialogfeld (
10 ) in einem Teil eines Bildschirms; ein Grammatik-Identifizier-Modul (12 ), welches innerhalb des Dialogfeldes angezeigt wird, welcher eine aktive Grammatik beschreibt; ein Such-Identifizier-Modul (14 ), welches innerhalb des Dialogfeldes angezeigt wird, welcher einen Grammatik-Suchmodus zum Bestimmen gültiger Eingaben entsprechend der aktiven Grammatik beschreibt; eine aktuelle Eingabe (16 ), welche innerhalb des Dialogfeldes angezeigt wird, welche eine gesprochene Eingabe beschreibt; und eine gültige Grammatikliste (18 ), welche innerhalb des Dialogfeldes angezeigt wird, welche Beispiele eines gültigen Vokabulars und des Benutzens entsprechend dem Grammatik-Suchmodus für die aktive Grammatik auflistet. - Verfahren für einen Benutzerdialog über eine graphische Benutzerschnittstelle mit wenigstens einer Grammatik eines gültigen Vokabulars und Benutzen für eine Anwendung, welche für ein Spracherkennungssystem zugänglich ist, dadurch gekennzeichnet, dass das Verfahren aufweist: Schaffen eines interaktiven Dialogfeldes (
10 ) in einem Teil eines Bildschirms; Darstellen innerhalb des Dialogfensters: eines Grammatik-Identifizier-Moduls (12 ), welches eine aktive Grammatik beschreibt, eines Such-Identifizier-Moduls (14 ), welches einen Grammatik-Suchmodus zum Bestimmen gültiger Eingaben entsprechend der aktiven Grammatik beschreibt, und einer aktuellen Eingabe (16 ), welche eine gesprochene Eingabe beschreibt; und Erzeugen und Darstellen einer gültigen Grammatikliste (18 )innerhalb des Dialogfensters, welche Beispiele eines gültigen Vokabulars und des Benutzens entsprechend dem Grammatik-Suchmodus für die aktive Grammatik auflistet. - Schnittstelle nach Anspruch 1, wobei die aktive Grammatik und/oder der Grammatik-Suchmodus interaktiv auswählbar ist, indem das Dialogfeld (
10 ) benutzt wird. - Schnittstelle nach Anspruch 1, wobei eines der Beispiele, welche in der gültigen Grammatikliste (
18 ) angezeigt werden, interaktiv als eine Eingabe für die Anwendung der aktiven Grammatik auswählbar ist. - Schnittstelle nach Anspruch 1, wobei der Grammatik-Suchmodus alle Wortphrasen von wenigstens einem Wort, welche in der aktiven Grammatik gültig sind, bestimmt und/oder Wortphrasen von wenigstens einem Wort bestimmt, welche die aktuelle Eingabe (
16 ) beinhalten und welche in der aktiven Grammatik gültig sind, vorzugsweise die Wortphrasen, welche mit der aktuellen Eingabe (16 ) beginnen. - Schnittstelle nach Anspruch 1, wobei diese ferner eine aktive Grammatikanzeige innerhalb des Dialogfeldes (
10 ) beinhaltet, welche die aktive Grammatik anzeigt, vorzugswei se die aktuelle Eingabe (16 ), welche interaktiv auswählbar ist, indem die aktive Grammatikanzeige benutzt wird. - Schnittstelle nach Anspruch 1, wobei die Beispiele, welche in der gültigen Grammatikliste (
18 ) angezeigt werden, durch Gebrauchen eines Matrix-basierten Algorithmus bezüglich der Kürze voreingestellt sind, wobei vorzugsweise der Matrix-basierte Algorithmus eine aus einem Mittelwert erzeugte Beispiellänge festlegt, um die Beispiele bezüglich der Kürze voreinzustellen. - Schnittstelle nach Anspruch 1, wobei das gültige Vokabular einen Satz von Befehlen, welcher für die Anwendung anwendbar ist, beinhaltet.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10250098P | 1998-09-30 | 1998-09-30 | |
US102500P | 1998-09-30 | ||
PCT/US1999/022545 WO2000019410A1 (en) | 1998-09-30 | 1999-09-30 | Graphic user interface for navigation in speech recognition system grammars |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69909806D1 DE69909806D1 (de) | 2003-08-28 |
DE69909806T2 true DE69909806T2 (de) | 2004-01-22 |
Family
ID=22290184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69909806T Expired - Lifetime DE69909806T2 (de) | 1998-09-30 | 1999-09-30 | Graphische Benutzerschnittstelle zur Navigation in Grammatiken eines Spracherkennungssystems |
Country Status (7)
Country | Link |
---|---|
US (1) | US6456972B1 (de) |
EP (1) | EP1116221B1 (de) |
AT (1) | ATE245845T1 (de) |
AU (1) | AU1097300A (de) |
CA (1) | CA2395040A1 (de) |
DE (1) | DE69909806T2 (de) |
WO (1) | WO2000019410A1 (de) |
Families Citing this family (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020032564A1 (en) | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
JP2003505778A (ja) | 1999-05-28 | 2003-02-12 | セーダ インコーポレイテッド | 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化 |
US7027991B2 (en) * | 1999-08-30 | 2006-04-11 | Agilent Technologies, Inc. | Voice-responsive command and control system and methodology for use in a signal measurement system |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20060143007A1 (en) * | 2000-07-24 | 2006-06-29 | Koh V E | User interaction with voice information services |
DE10040310C2 (de) * | 2000-08-17 | 2002-11-21 | Alfmeier Praez Ag | Füllstandsbegrenzungsventil |
US6836760B1 (en) * | 2000-09-29 | 2004-12-28 | Apple Computer, Inc. | Use of semantic inference and context-free grammar with speech recognition system |
CN1272698C (zh) | 2000-10-11 | 2006-08-30 | 佳能株式会社 | 信息处理装置、信息处理方法 |
DE10131157C1 (de) * | 2001-06-29 | 2002-07-04 | Project49 Ag | Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme |
DE10145913A1 (de) * | 2001-09-18 | 2003-04-03 | Philips Corp Intellectual Pty | Verfahren zur Bestimmung von zu Nichtterminalen einer Grammatik gehörigen Sequenzen von Terminalen oder von Terminalen und Platzhaltern |
US20030061054A1 (en) * | 2001-09-25 | 2003-03-27 | Payne Michael J. | Speaker independent voice recognition (SIVR) using dynamic assignment of speech contexts, dynamic biasing, and multi-pass parsing |
US20040030559A1 (en) * | 2001-09-25 | 2004-02-12 | Payne Michael J. | Color as a visual cue in speech-enabled applications |
US20030061053A1 (en) * | 2001-09-27 | 2003-03-27 | Payne Michael J. | Method and apparatus for processing inputs into a computing device |
US20030065740A1 (en) * | 2001-09-28 | 2003-04-03 | Karl Allen | Real-time access to health-related information across a network |
US7222073B2 (en) * | 2001-10-24 | 2007-05-22 | Agiletv Corporation | System and method for speech activated navigation |
US7099829B2 (en) * | 2001-11-06 | 2006-08-29 | International Business Machines Corporation | Method of dynamically displaying speech recognition system information |
US7080004B2 (en) * | 2001-12-05 | 2006-07-18 | Microsoft Corporation | Grammar authoring system |
US20030130868A1 (en) * | 2002-01-04 | 2003-07-10 | Rohan Coelho | Real-time prescription transaction with adjudication across a network |
US20030130875A1 (en) * | 2002-01-04 | 2003-07-10 | Hawash Maher M. | Real-time prescription renewal transaction across a network |
US20030130867A1 (en) * | 2002-01-04 | 2003-07-10 | Rohan Coelho | Consent system for accessing health information |
US7177814B2 (en) * | 2002-02-07 | 2007-02-13 | Sap Aktiengesellschaft | Dynamic grammar for voice-enabled applications |
AUPS204302A0 (en) * | 2002-04-30 | 2002-06-06 | Cmc Power Systems Limited | A connection assembly |
US7016845B2 (en) * | 2002-11-08 | 2006-03-21 | Oracle International Corporation | Method and apparatus for providing speech recognition resolution on an application server |
US7668720B2 (en) * | 2004-02-20 | 2010-02-23 | Vangard Voice Systems, Inc. | Methodology for voice enabling applications |
US7650284B2 (en) * | 2004-11-19 | 2010-01-19 | Nuance Communications, Inc. | Enabling voice click in a multimodal page |
US7752048B2 (en) | 2005-05-27 | 2010-07-06 | Oracle International Corporation | Method and apparatus for providing speech recognition resolution on a database |
US7548859B2 (en) * | 2005-08-03 | 2009-06-16 | Motorola, Inc. | Method and system for assisting users in interacting with multi-modal dialog systems |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7620553B2 (en) * | 2005-12-20 | 2009-11-17 | Storz Endoskop Produktions Gmbh | Simultaneous support of isolated and connected phrase command recognition in automatic speech recognition systems |
US8311836B2 (en) * | 2006-03-13 | 2012-11-13 | Nuance Communications, Inc. | Dynamic help including available speech commands from content contained within speech grammars |
EP2024863B1 (de) | 2006-05-07 | 2018-01-10 | Varcode Ltd. | System und verfahren zur verbesserten qualitätsverwaltung in einer produktlogistikkette |
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7747442B2 (en) | 2006-11-21 | 2010-06-29 | Sap Ag | Speech recognition application grammar modeling |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8528808B2 (en) | 2007-05-06 | 2013-09-10 | Varcode Ltd. | System and method for quality management utilizing barcode indicators |
CN101802812B (zh) | 2007-08-01 | 2015-07-01 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
US8500014B2 (en) | 2007-11-14 | 2013-08-06 | Varcode Ltd. | System and method for quality management utilizing barcode indicators |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8536976B2 (en) * | 2008-06-11 | 2013-09-17 | Veritrix, Inc. | Single-channel multi-factor authentication |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
US8166297B2 (en) * | 2008-07-02 | 2012-04-24 | Veritrix, Inc. | Systems and methods for controlling access to encrypted data stored on a mobile device |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010051342A1 (en) * | 2008-11-03 | 2010-05-06 | Veritrix, Inc. | User authentication for social networks |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
CN102884518A (zh) | 2010-02-01 | 2013-01-16 | 金格软件有限公司 | 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (de) | 2013-06-09 | 2022-01-12 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的***和方法 |
US9159317B2 (en) * | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) * | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9582498B2 (en) | 2014-09-12 | 2017-02-28 | Microsoft Technology Licensing, Llc | Actions on digital document elements from voice |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
CN107615027B (zh) | 2015-05-18 | 2020-03-27 | 发可有限公司 | 用于可激活质量标签的热致变色墨水标记 |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
JP6898298B2 (ja) | 2015-07-07 | 2021-07-07 | バーコード リミティド | 電子品質表示指標 |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5890122A (en) * | 1993-02-08 | 1999-03-30 | Microsoft Corporation | Voice-controlled computer simulateously displaying application menu and list of available commands |
JP2967688B2 (ja) * | 1994-07-26 | 1999-10-25 | 日本電気株式会社 | 連続単語音声認識装置 |
US5774628A (en) * | 1995-04-10 | 1998-06-30 | Texas Instruments Incorporated | Speaker-independent dynamic vocabulary and grammar in speech recognition |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US5812977A (en) * | 1996-08-13 | 1998-09-22 | Applied Voice Recognition L.P. | Voice control computer interface enabling implementation of common subroutines |
US6188985B1 (en) * | 1997-01-06 | 2001-02-13 | Texas Instruments Incorporated | Wireless voice-activated device for control of a processor-based host system |
US5983190A (en) * | 1997-05-19 | 1999-11-09 | Microsoft Corporation | Client server animation system for managing interactive user interface characters |
US6094635A (en) * | 1997-09-17 | 2000-07-25 | Unisys Corporation | System and method for speech enabled application |
US5937385A (en) * | 1997-10-20 | 1999-08-10 | International Business Machines Corporation | Method and apparatus for creating speech recognition grammars constrained by counter examples |
US6064961A (en) * | 1998-09-02 | 2000-05-16 | International Business Machines Corporation | Display for proofreading text |
US6208971B1 (en) * | 1998-10-30 | 2001-03-27 | Apple Computer, Inc. | Method and apparatus for command recognition using data-driven semantic inference |
US6208972B1 (en) * | 1998-12-23 | 2001-03-27 | Richard Grant | Method for integrating computer processes with an interface controlled by voice actuated grammars |
US6178404B1 (en) * | 1999-07-23 | 2001-01-23 | Intervoice Limited Partnership | System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases |
-
1999
- 1999-09-30 CA CA002395040A patent/CA2395040A1/en not_active Abandoned
- 1999-09-30 AU AU10973/00A patent/AU1097300A/en not_active Abandoned
- 1999-09-30 DE DE69909806T patent/DE69909806T2/de not_active Expired - Lifetime
- 1999-09-30 AT AT99954682T patent/ATE245845T1/de not_active IP Right Cessation
- 1999-09-30 US US09/410,213 patent/US6456972B1/en not_active Expired - Lifetime
- 1999-09-30 WO PCT/US1999/022545 patent/WO2000019410A1/en active IP Right Grant
- 1999-09-30 EP EP99954682A patent/EP1116221B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US6456972B1 (en) | 2002-09-24 |
DE69909806D1 (de) | 2003-08-28 |
EP1116221B1 (de) | 2003-07-23 |
EP1116221A1 (de) | 2001-07-18 |
CA2395040A1 (en) | 2000-04-06 |
WO2000019410A1 (en) | 2000-04-06 |
AU1097300A (en) | 2000-04-17 |
ATE245845T1 (de) | 2003-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69909806T2 (de) | Graphische Benutzerschnittstelle zur Navigation in Grammatiken eines Spracherkennungssystems | |
DE69807091T2 (de) | System und verfahren zum schaffen einer sprachgrammatik | |
DE69814114T2 (de) | Natürliche sprache verstehendes verfahren und verstehende vorrichung zur sprachsteuerung einer anwendung | |
DE60102955T2 (de) | Verfahren und Vorrichtung zur Vorhersage des nächsten Tastenanschlags an Tastaturen, die mittels eines Zeigers bedient werden | |
DE69424350T2 (de) | Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch | |
DE69131819T2 (de) | Kommunkationssystem mit textnachrichtenauffindung basiert auf konzepten die durch tastaturikonen eingegeben werden | |
DE19842688B4 (de) | Verfahren zum Filtern von Daten, die von einem Datenanbieter stammen | |
DE69607472T2 (de) | System zur unterdrückung der vieldeutigkeit in einer verringerten tastatur | |
DE69609866T2 (de) | Flexibles system und verfahren zum verknüpfen von hyperlinks | |
DE69329265T2 (de) | Graphischer Datenbankzugriff | |
DE69317863T2 (de) | Übersetzungssystem Gebärdensprache/Wort | |
DE69330427T2 (de) | Spracherkennungssystem für sprachen mit zusammengesetzten wörtern | |
DE69515296T2 (de) | Font-manager mit selektivem zugriff auf installierte fonts | |
DE69607601T2 (de) | System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax | |
DE60014743T2 (de) | Verfahren und Vorrichtung zur Analyse natürlicher Sprache | |
DE69030862T2 (de) | Automatisches Ikonerzeugungssystem | |
DE69615596T2 (de) | Auf Auslassungen basierende Darstellung von geordneten Daten | |
DE69400276T2 (de) | Zeichensatzsystem für texteingabe | |
DE60109999T2 (de) | Spracherkennung mittels lexikalischer Bäumen | |
DE60319586T2 (de) | Elektronisches wörterbuch mit beispielsätzen | |
EP1599866B1 (de) | Sprachverarbeitendes system und verfahren | |
DE10110977C1 (de) | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
DE69330361T2 (de) | Spracherkennungssystem | |
EP1159689A2 (de) | Such- und navigationseinrichtung für hypertext-dokumente |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |