DE60217579T2 - Automatische Steuerung von Hausgeräten mittels Erkennung von natürlicher Sprache - Google Patents

Automatische Steuerung von Hausgeräten mittels Erkennung von natürlicher Sprache Download PDF

Info

Publication number
DE60217579T2
DE60217579T2 DE60217579T DE60217579T DE60217579T2 DE 60217579 T2 DE60217579 T2 DE 60217579T2 DE 60217579 T DE60217579 T DE 60217579T DE 60217579 T DE60217579 T DE 60217579T DE 60217579 T2 DE60217579 T2 DE 60217579T2
Authority
DE
Germany
Prior art keywords
information
user
parser
data store
household
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60217579T
Other languages
English (en)
Other versions
DE60217579D1 (de
Inventor
John Saratoga Howard
Jean-Claude Santa Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE60217579D1 publication Critical patent/DE60217579D1/de
Publication of DE60217579T2 publication Critical patent/DE60217579T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4131Peripherals receiving signals from specially adapted client devices home appliance, e.g. lighting, air conditioning system, metering devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/43615Interfacing a Home Network, e.g. for connecting the client to a plurality of peripherals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft allgemein den interaktiven Informationsabruf. Insbesondere betrifft die Erfindung ein sprachaktiviertes System zum Navigieren durch eine Menüstruktur elektronisch gespeicherter Informationen, so dass dem Benutzer eine optimale Informationsmenge und ein korrekter Informationsinhalt angezeigt werden können.
  • Es besteht zunehmendes Interesse an der Vergrößerung der Reichweite von Computernetzen im Haushalt. Es werden Haushalts-Gateways entwickelt, um Vernetzungsdienste, Haushaltsautomatisierung und Zugang zu Informationen im ganzen Haus bereitzustellen. Eines der mit dem Bereitstellen solchen Zugangs assoziierten Probleme ist der Informationsabruf. Während große Computeranzeigen relativ gut Informationen in einem bequem nutzbaren gut organisierten Format anzeigen, haben viele Geräte und Systeme im Haushalt keine Anzeigen dieser Größe oder Qualität. Daher sind die meisten Konsumelektronikprodukte und Haushaltsgeräte bisher nur in der Lage, einfache Nachrichten und kleine Informationsmengen anzuzeigen.
  • Ein gutes Beispiel für den interaktiven Informationsabruf im Zusammenhang mit interaktivem Fernsehen ist in der europäischen Patentanmeldung Nr. EP 1079617 mit dem Titel "Automatic filtering of TV contents using speech recognition natural language" (Automatisches Filtern von TV-Inhalten unter Verwendung von Spracherkennung natürlicher Sprache) offenbart.
  • Es wird damit gerechnet, dass Benutzer, mit dem Wachstum von Haushaltsnetzwerken, in Zukunft verschiedene Konsumelektronikprodukte und Haushaltsgeräte an das Haushaltsnetzwerk anschließen möchten, damit solche Produkte und Geräte Daten gemeinsam nutzen und miteinander in Wechselwirkung treten können. Diesbezüglich kann das Haushaltsnetzwerk die Kommunikation über verschiedene Kanäle unterstützen, einschließlich über vorhandene Telefonleitungen oder Computernetzwerkleitungen, als Datensignale, die den Wechselstromleitungen überlagert werden oder als Drahtloskommunikation unter Verwendung verschiedener Technologien einschließlich Spread-Spectrum-Radiofrequenz- und Bluetooth-Technologie.
  • Wenn das Haushaltsnetzwerk aufgebaut ist und eine Reihe verschiedener Elektronikprodukte und Geräte angeschlossen sind, möchten Benutzer ihre angeschlossenen Produkte und Geräte sicherlich als Portale zum Haushaltsnetzwerk nutzen. Das Problem dabei ist, dass die derzeitige Technik eine sehr umständliche Benutzeroberfläche bietet, insbesondere wenn die Anzeige klein oder von geringer Qualität ist. Mit der aktuellen Technik kann es manchmal lange dauern, bis dem Benutzer Informationen in einem Menü angezeigt werden. Außerdem ist es schwierig, mit Bildschirm-Menüanzeigen in Wechselwirkung zu treten, insbesondere, wenn die Mausbetätigung oder Tastaturbedienung in abgedunkelten Räumen stattfinden muss. Schließlich befindet sich der Bildschirm der Benutzeroberfläche möglicherweise nicht an einem idealen Ort für alle Familienmitglieder und die Anzahl solcher Benutzeroberflächen kann beschränkt sein.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung nach Anspruch 1 stellt ein sprachaktiviertes System bereit, um mit der Unterstützung einer oder mehrerer elektronischer Tätigkeitsführungen Informationen zu filtern und durch komplexe Menüstrukturen zu navigieren. Das System kann dazu konfiguriert werden, dem Benutzer eine optimale Menge von Informationen für die anschließende Tätigkeitsauswahl vorzulegen.
  • Um die Einschränkungen herkömmlicher bildschirmbasierter Benutzeroberflächen zu überwinden, nutzt die vorliegende Erfindung Spracherkennung und Parsing natürlicher Sprache, um den Inhalt der elektronischen Tätigkeitsführung automatisch zu filtern, so dass dem Benutzer eine optimale Zahl fein abgestimmter Optionen zur anschließenden Auswahl über Sprache oder über herkömmliche Tastensteuerung oder über andere Mittel angezeigt werden können.
  • Die Erfindung bietet einem Benutzer eine schnelle und wesentlich weniger störende Benutzeroberfläche zum Auswählen einer bestimmten Tätigkeit. Häufig kann eine Anforderung in einem einzigen Satz abgeschlossen werden. In diesem Fall ist keine Anzeigevorrichtung notwendig oder es muss keine beobachtet werden, falls sie vorhanden ist.
  • Die Erfindung ermöglicht, dass jedes beliebige an das Netzwerk angeschlossene Gerät als Portal zum Bedienen dieses Geräts oder eines beliebigen anderen am Netzwerk angeschlossenen Geräts dient. Falls das Netzwerk über ein Gateway oder eine andere geeignete Verbindung zum Internet gekoppelt ist, ist das Internet ebenfalls über dieses Portal zugänglich.
  • Die Erfindung nutzt ein Spracherkennungssystem mit einem Parser zum Extrahieren von semantischen Informationen aus der eingegebenen Sprache eines Benutzers. Ein Datenspeicher speichert eine Repräsentation einer oder mehrerer elektronischer Tätigkeitsführungen. Diese Führungen sind in der Lage, das Gebiet des natürlichen Sprachdialogs auf eine bestimmte Vorrichtung, ein bestimmtes System oder einen bestimmten Diskurs zu begrenzen. Dadurch wird das System viel genauer beim Interpretieren der mit der eingegebenen Sprache des Benutzers assoziierten Bedeutung. Ein Dialogmodul für natürliche Sprache greift auf die elektronische(n) Tätigkeitsführung bzw. -führungen zu, interpretiert die Bedeutung der eingegebenen Sprache des Benutzers und liefert dem Netzwerk entsprechende Informationen, um spezifische Informationen von einem der an das Netzwerk angeschlossenen Geräte oder vom Internet, falls eine Verbindung dazu bereitgestellt ist, abzurufen. Das Dialogmodul für natürliche Sprache kann außerdem Steuerbefehle und Menünavigationsbefehle an über das Netzwerk kommunizierende Geräte bereitstellen. So liefert die Erfindung dem Benutzer einen natürlichen, sprechenden Modus zum Beschaffen von Informationen und zum Steuern von Geräten, Haushaltsgeräten, Computern und anderen Systemen im Haushalt.
  • Beispielsweise könnte der Benutzer, der kurz davor ist, einkaufen zu gehen, in ein zum Kühlschrank gehörendes Mikrofon sprechen und fragen: "Was kann ich heute Abend kochen?" Das Dialogmodul für natürliche Sprache würde auf die entsprechende elektronische Tätigkeitsführung zugreifen (die mit dem Kühlschrank assoziierte) und dann Informationen abrufen, die mögliche Abendessenmenüs mit den Artikeln im Kühlschrank assoziiert. Das System würde Vorschläge zu möglichen Menüs machen und den Benutzer auf Zutaten aufmerksam machen, die beschafft werden müssen. Der Benutzer könnte dann sagen, "Ich glaube, ich mache heute Abend Hühnerfrikassee. Bitte drucke eine Einkaufsliste." Das System würde dann feststellen, welche Artikel gegenwärtig nicht im Kühlschrank vorhanden sind und würde einen Druckauftrag zum Drucken an den Computer des Benutzers schicken.
  • In einer bevorzugten Ausführungsform hat jedes Haushaltsgerät oder andere Vorrichtung, die über das Netzwerk kommuniziert, eine zugehörige elektronische Tätigkeitsführung, die die Dialoggrammatik an ihr jeweiliges Gebiet anpasst. Das Dialogmodul für natürliche Sprache kann auf dem ganzen Netzwerk gemeinsam genutzt werden. Wenn der Benutzer in ein Mikrofon spricht, das an einem Haushaltsgerät oder einer Vorrichtung, das bzw. die über das Netzwerk kommuniziert, angebracht ist oder sich in dessen Nähe befindet, interpretiert das Dialogmodul für natürliche Sprache die Bedeutung der eingegebenen Sprache unter Verwendung der elektronischen Tätigkeitsführung und daher der spezifischen Grammatik, die für die eingegebene Sprache am passendsten ist. Das System wählt die beste Tätigkeitsführung, indem es die Grammatik identifiziert, die den höchsten semantischen Erkennungs-Score liefert. So könnte der Benutzer vor dem Kühlschrankportal stehen und das System auffordern, im Internet Vorratspreise nachzuschauen, um sie unter Verwendung des Text-zu-Sprache-Synthesizers des Systems über den Lautsprecher des Kühlschranks abzuspielen. Das Dialogmodul für natürliche Sprache würde Anfragen nach Vorratspreisen beispielsweise unter Verwendung einer elektronischen Tätigkeitsführung interpretieren, die mit dem mit dem Internet verbundenen Haushalts-Gateway assoziiert ist, obwohl der Benutzer die eingegebene Sprache über ein mit dem Kühlschrank assoziierten oder sich in dessen Nähe befindendes Mikrofon eingegeben hat.
  • Ein umfassenderes Verständnis der Erfindung sowie ihrer vielen Fähigkeiten, Aufgaben und Vorteile erhält man aus der übrigen Beschreibung und den beiliegenden Zeichnungen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Abbildung 1 ist ein Blockdiagramm einer gegenwärtig bevorzugten Ausführungsform der Erfindung, abgebildet zusammen mit einem Computernetzwerk und einem mit dem Internet verbundenen Haushalts-Gateway;
  • 2 ist ein detaillierteres Blockdiagramm, das zeigt, wie der Spracherkenner und der Parser für natürliche Sprache mit dem Dialogmanager und den zugehörigen elektronischen Tätigkeitsführungen in Wechselwirkung stehen;
  • 3 ist ein Blockdiagramm, das die Komponenten des Parsers für natürliche Sprache der gegenwärtig bevorzugten Ausführungsform zeigt; und
  • 4 ist ein Blockdiagramm, das die Komponenten des lokalen Parsers der gegenwärtig bevorzugten Ausführungsform zeigt.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • In 1 ist das Haushalts-Tätigkeitssteuersystem als integraler Bestandteil eines Computernetzwerks 10 gezeigt, das einen Gateway 12 enthalten kann, der über eine geeignete Verbindung mit dem Internet in Verbindung steht. Wie zuvor angemerkt, kann das Netzwerk 10 mittels einer Reihe verschiedener Kommunikationstechniken realisiert werden, einschließlich verdrahtete und drahtlose Techniken und optische Techniken.
  • Zum Zweck der Veranschaulichung einiger der Fähigkeiten der Erfindung sind verschiedene Vorrichtungen als an das Netzwerk 10 angeschlossen dargestellt. Sie umfassen Audio/Video-Geräte 16, Haushaltsgeräte 18, Computer 20 und andere Systeme 22. Diesbezüglich sind gegenwärtig die meisten Haushalte nicht mit Audio/Video-Geräten und Haushaltsgeräten ausgestattet, die netzwerkfähig sind. Es wird jedoch erwartet, dass in Zukunft Audio/Video-Geräte und Haushaltsgeräte Netzwerkfähigkeit aufweisen, so dass diese Vorrichtungen als Komponenten unter der Steuerung des Haushalts-Gateways und des Netzwerksystems und außerdem als Portale für die natürliche Sprachkommunikation dienen können.
  • Der Gateway 12 kann eine Reihe verschiedener Formen annehmen – von einer einfachen Netzwerkknotenvorrichtung zu einem komplizierteren Knoten- und Schaltsystem mit Breitbandverbindung zum Internet 14. Falls erwünscht, kann der Gateway auch Komponenten zum Ausführen verschiedener Haushaltsautomatisierungsfunktionen umfassen, einschließlich Beleuchtungssteuerungsfunktionen, Brand- und Einbruchsalarmfunktionen, Heizungs- und Kühlungssteuerungsfunktionen, Telefonbeantwortungs- und -umschaltfunktionen und Dergleichen. Alternativ können diese Haushaltsautomatisierungsfunktionen von an das Netzwerk angeschlossenen Hilfsgeräten bereitgestellt werden, wie unter 24 dargestellt.
  • Vorzugsweise hat jedes der an das Netzwerk 10 angeschlossenen Vorrichtungen, wie die unter 1624 in 1 dargestellten Vorrichtungen, unabhängige Verarbeitungsfähigkeiten und mindestens begrenzte Datenspeicherungsfähigkeit. Außerdem können diese Vorrichtungen integrierte Anzeigebildschirme, Benutzereingabe-Bedienungselemente wie Tastenbedienungselemente, Zeigevorrichtungs-Bedienungselemente, Tastaturen und Dergleichen umfassen. In der gegenwärtig bevorzugten Ausführungsform ist jede Vorrichtung dazu konfiguriert, unabhängig von ihrer Verbindung zum Netzwerk zu arbeiten. Wenn daher das Netzwerk aus irgendeinem Grund außer Betrieb gesetzt wird, üben die Vorrichtungen weiter ihre jeweiligen Funktionen aus. Wenn das Netzwerk danach wieder in Betrieb gesetzt wird, sind die Vorrichtungen vorzugsweise in der Lage, miteinander zu kommunizieren, um sich zu Bedingungen auf den neuesten Stand zu bringen, die während des Kommunikationsausfalls möglicherweise aufgezeichnet wurden.
  • Gemäß der vorliegenden Erfindung wird ein System für Spracherkennung und natürlichen Sprachdialog bereitgestellt, um es Benutzern zu ermöglichen, unter Verwendung natürlicher Sprache mit den verschiedenen, an das Netzwerk angeschlossenen Geräten und Systemen zu kommunizieren. Zum Zweck der Veranschaulichung wurde das System für Spracherkennung und natürlichen Sprachdialog unter 30 dargestellt. Das System 30 ist in 1 mit dem Netzwerk 10 verbunden gezeigt. Dies soll lediglich zeigen, dass die Verarbeitungsdienste für Spracherkennung und natürlichen Sprachdialog des Systems 30 für die über das Netzwerk 10 kommunizierenden Geräte, Haushaltsgeräte und anderen Systeme verfügbar gemacht werden. So könnte das System 30 physikalisch im Haushalts-Gateway 12 oder in einem beliebigen der anderen über das Netzwerk kommunizierenden Vorrichtungen, Haushaltsgeräte, Computer, Automatisierungssysteme und anderen Systeme realisiert werden. Außerdem oder alternativ könnte die vom System 30 bereitgestellte Funktionalität von Komponenten realisiert werden, die vom Internet 14 beschafft werden. Die Komponenten können beispielsweise auf Anforderung vom Internet 14 auf den Haushalts-Gateways 12 heruntergeladen werden.
  • Das System 30 für Spracherkennung und Verarbeitung natürlicher Sprache der bevorzugten Ausführungsform umfasst eines von mehreren Mikrofonen 32, über die die eingegebene Sprache bereitgestellt wird. Dabei kann es sich um rauschunterdrückende Mikrofone handeln, die physikalisch an verschiedenen Orten angeordnet sind, einschließlich in beliebigen der über das Netzwerk 10 kommunizierenden Komponenten. Die Mikrofoneingabe wird an ein Spracheingabe-Verarbeitungsmodul 34 geliefert, das die eingegebene Sprache digitalisiert und zur vom Spracherkenner 36 benötigten Form konvertiert. Da Haushaltsumgebungen typischerweise viel störende Hintergrundgeräusche haben, kann das Spracheingabe-Verarbeitungsmodul 34 Verarbeitungskomponenten zum Erkennen von Anfang und Ende der Sprache umfassen, wodurch Hintergrundgeräuschkomponenten herausgefiltert werden, die nicht einem menschlichen Sprachprofil entsprechen.
  • Der Spracherkenner 36 kann einen Satz von Sprachmodellen 38 umfassen, die im Voraus trainiert oder angepasst werden und vom Erkenner verwendet werden, um die gesprochenen Äußerungen zu Text oder Symbolform zu konvertieren. In einer Ausführungsform können die Sprachmodelle 38 vom Sprecher unabhängige kontinuierliche Sprachmodelle sein, die in der Lage sind, ein großes Vokabular von Wörtern und Phrasen zu Text oder Symbolform zu konvertieren. Falls gewünscht, kann das System fähig gemacht werden, die Sprachmodelle 38 basierend auf Trainings- oder Anpassungsäußerungen von den Sprechern, die das System nutzen werden, zu aktualisieren. In einem solchen Fall würden die Sprachmodelle zu sprecherabhängigen/angepassten Modellen modifiziert.
  • Die Ausgabe des Spracherkenners 36 wird dem Dialogmodul für natürliche Sprache 40 zugeführt. Aufbau und Funktion dieses Moduls werden nachfolgend ausführlicher beschrieben. Das Dialogmodul für natürliche Sprache arbeitet zusammen mit einem Satz elektronischer Tätigkeitsführungen, die kollektiv unter 42 und einzeln unter 44, 46, 48 und 50 gezeigt sind. Wie später ausführlicher erklärt wird, dienen diese elektronischen Tätigkeitsführungen dazu, das Gebiet des Dialogmoduls für natürliche Sprache zu begrenzen, so dass es semantischen Inhalt oder Bedeutung aus dem Text oder der symbolischen Repräsentation extrahieren kann, die vom Dialogmodul an den Spracherkenner 36 geliefert wurden. Es ist zwar möglich, eine globale elektronische Tätigkeitsführung aufzubauen, die Dialog mit einer Vielzahl verschiedener Komponenten, Vorrichtungen, Haushaltsgeräte, Systeme und Dergleichen handhaben kann, die gegenwärtig bevorzugte Ausführungsform verwendet jedoch getrennte elektronische Tätigkeitsführungen für diese jeweiligen Ausrüstungsgegenstände. Das Trennen der elektronischen Tätigkeitsführungen für jeden Ausrüstungsgegenstand macht die Programmierung und Fehlersuche der Führungen beim Entwickeln eines Systems einfacher.
  • Das Dialogmodul für natürliche Sprache kann mit einem Text-zu-Sprache-Synthesizer 52 gekoppelt werden, der seinerseits mit einem geeigneten Audiosystem mit Lautsprechern gekoppelt ist, wie schematisch unter 54 gezeigt. Der Text-zu-Sprache-Synthesizer liefert Spracheingabeaufforderungen als Teil des natürlichen Sprachdialogs mit dem Benutzer. Der Text-zu-Sprache-Synthesizer 52 kann außerdem Textinhalt in einer hörbaren synthetisierten Sprachform wiedergeben, so dass sich der Benutzer Informationen beschaffen kann, ohne auf einen Anzeigebildschirm schauen zu müssen. Das Dialogmodul für natürliche Sprache bestimmt den semantischen Inhalt oder die Bedeutung der vom Benutzer eingegebenen Sprache und liefert den entsprechenden, über das Netzwerk 10 kommunizierenden Vorrichtungen geeignete Befehle.
  • Eine gegenwärtig bevorzugte Ausführungsform des Systems für Erkennung und natürliche Sprache ist in 2 dargestellt. Eingegebene Sprache vom Benutzer wird über eine geeignete Audioschnittstelle und einen Digitalisierer an das Spracherkennermodul 110 geliefert. Die Ausgabe des Spracherkennermoduls 110 wird an einen Parser für natürliche Sprache 112 geliefert. Der Parser arbeitet zusammen mit einem Satz von Grammatiken 114, die die Semantik dessen definieren, das der Parser verstehen kann. Die Einzelheiten des Parsers werden nachfolgend ausführlicher diskutiert. Im Wesentlichen arbeitet der Parser jedoch auf einer zielorientierten Basis. Er identifiziert Schlüsselwörter und Phrasen aus der erkannten Sprache und verwendet diese erkannten Wörter und Phrasen, um Plätze in vordefinierten Vorlagen oder Rahmen zu füllen, die verschiedene zielorientierte Aufgaben repräsentieren.
  • Der Parser arbeitet außerdem zusammen mit einer semantischen Repräsentation der elektronischen Tätigkeitsführung (Electronic Activity Guide, EAG). In 2 ist die semantische Repräsentation unter 116 gespeichert. Die EAG wird in den Grammatiken 114 abgebildet. Der Parser für natürliche Sprache befragt also die unter 116 gespeicherte, semantische Repräsentation, um festzustellen, welche Optionen oder Antworten das System dem Benutzer vorlegt. Da das System es dem Benutzer erlaubt, mit sich ständig ändernden elektronischen Tätigkeitsführungsdaten in Wechselwirkung zu stehen, wird ein Mechanismus bereitgestellt, um den Inhalt der elektronischen Tätigkeitsführung in die Grammatiken des lokalen Parsers herunterzuladen oder zu aktualisieren. Diese Funktion wird vom Führungsabbildungsmodul 118 ausgeführt. Das Abbildungsmodul lädt die EAG herunter, die unter 120 schematisch als Baumstruktur dargestellt ist und bildet den Inhalt der Führung in den Grammatiken des örtlichen Parsers ab. Das Führungsabbildungsmodul hat a-priori-Kenntnis der Gesamtstruktur der elektronischen Tätigkeitsführung. Daher weiß das Abbildungsmodul beispielsweise, dass die mit einem Fernseher oder einem Videorecorder assoziierte elektronische Tätigkeitsführung getrennte Kategorien für Filme, Sport, Nachrichten, Wetter und so weiter hat. Das Abbildungsmodul nutzt diese a-priori-Kenntnis dann zum Abbilden der an den Zwischen- und Blattknoten der elektronischen Tätigkeitsführung gefundenen Informationen in den Grammatiken. Beispielsweise könnte die Filmen entsprechende semantische Repräsentation ihrerseits Plätze haben, die verschiedenen Arten von Filmen entsprechen, beispielsweise Komödien, Dramen, Science Fiction, sowie Plätze für den Namen des Regisseurs, für die Namen von Schauspielern und so weiter. Eine semantische Repräsentation des Inhalts des Kühlschranks könnte beispielsweise Plätze haben, die verschiedenen Arten von Lebensmittelartikeln entsprechen.
  • Von Zeit zu Zeit kann sich die Gesamtstruktur der elektronischen Tätigkeitsführung ändern. Das kann beispielsweise geschehen, wenn neue Komponenten zum Netzwerk hinzugefügt werden. Das System ist so aufgebaut, dass es solche Änderungen berücksichtigt, indem es einen Abbildungsmodul-Updater 122 enthält. Der Modul-Updater kann über das Netzwerk, über das Internet oder über eine beliebige andere Telekommunikationsverbindung mit Aktualisierungsinformationen versorgt werden. Wenn sich die Gesamtstruktur der elektronischen Tätigkeitsführung ändert, so dass das Programmführungs-Abbildungsmodul nicht mehr den gesamten Inhalt der Führung korrekt abbildet, wird das Abbildungsmodul vom Updater 122 aktualisiert. Der Update kann die Form zusätzlicher Plug-in-Module oder einer komplett neuen Version des Abbildungsmoduls haben.
  • Eine Aufgabe des Systems besteht darin, die Interaktion mit den über das Netzwerk kommunizierenden Systemen zu vereinfachen. Dazu filtert das System die in der elektronischen Tätigkeitsführung gefundenen Informationen basierend auf der Semantik der vom Benutzer gesprochenen Anforderung. Obwohl in manchen Fällen der Dialog mit dem Benutzer schnell eine einzelne Tätigkeit oder Information identifizieren kann, für die sich der Benutzer interessiert, wird häufiger eine Folge von Dialogen benötigt, um genau festzustellen, an welcher Tätigkeit der Benutzer interessiert ist.
  • Um dies zu erleichtern, nutzt die bevorzugte Ausführungsform einen Dialogmanager 124, der den Parser für natürliche Sprache 112 nutzt, um die Anforderungen des Benutzers zu etwas zu verfeinern, das aussagekräftig auf einem Bildschirm angezeigt oder über synthetisierte Sprache dargestellt werden kann. Der Dialogmanager hat vorab gespeicherte Informationen zu den Anzeigefähigkeiten des Systems, so dass er eine geeignete Informationsmenge festlegen kann, die dem Benutzer auf einem Bildschirm bereitgestellt werden kann. Beispielsweise ist ein Angebot von fünfzig Filmoptionen für den Benutzer als Antwort auf eine einzige Anforderung möglicherweise zu viel, um unter Berücksichtigung der Einschränkungen von Bildschirmauflösung und Schrifthöhe, ohne Weiteres auf dem Bildschirm angezeigt zu werden. Wenn andererseits nur zwei Programme als Antwort auf eine bestimmte Anforderung identifiziert werden, kann der Dialogmanager dem Benutzer zusätzliche Fragen stellen, um festzustellen, ob der Benutzer mehr Informationen sehen möchte.
  • Dank der Verwendung einer semantischen Repräsentation der elektronischen Tätigkeitsführung führt das System eine Filterung der in der elektronischen Programmführung 120 enthaltenen Informationen aus. Diese Funktion ist schematisch durch das Filtermodul 126 in 2 dargestellt.
  • Der Dialogmanager arbeitet zusammen mit einem Profildatenspeicher 128. Dieser Datenspeicher kann Benutzerprofilinformationen enthalten, wie beispielsweise Daten zu früheren Anfragen des Benutzers. Diese Informationen können beispielsweise verwendet werden, um den Dialogmanager und die zugehörige Filterungsfunktion beim Identifizieren von Informationen zu führen, für die sich der Benutzer möglicherweise interessiert bzw. nicht interessiert. Wenn der Benutzer beispielsweise am vorherigen Abend ein bestimmtes Programm angeschaut hat, würde diese Tatsache im Datenspeicher 128 gespeichert und der Dialogspeicher könnte dieses Programm dann in der Anzeige für einen darauf folgenden Abend unterdrücken. Falls der Benutzer regelmäßig Spinatauflauf als Mahlzeit ablehnt, unterdrückt der Dialogmanager diese Auswahl in Zukunft ebenso. Der Profildatenspeicher kann auch verwendet werden, um Benutzervorlieben dazu zu speichern, wie viele Informationen der Benutzer auf dem Bildschirm angezeigt oder durch synthetisierte Sprache bereitgestellt haben möchte. Die Profildaten für einen bestimmten Benutzer können unter Verwendung von Sprecherverifizierung oder Sprecheridentifizierung ausgewählt werden. Dazu speichert das Erkennungssystem eindeutige oder identifizierende Sprachcharakteristika jedes Benutzers. Wenn danach dieser Benutzer eine Spracheingabe bereitstellt, kann das System entweder die Identität des Sprechers feststellen, indem es eine Sprecheridentifikation basierend auf den Sprachcharakteristika durchführt oder es kann eine vom Sprecher bereitgestellte gegebene Identität verifizieren, indem es eine Sprecherverifizierung basierend auf den Sprachcharakteristika durchführt.
  • Der Parser für natürliche Sprache 112 und die semantische Repräsentation der elektronischen Tätigkeitsführung bilden zusammen das Herz der Sprachverständnissystems. Die Einzelheiten des bevorzugten Parsers für natürliche Sprache werden nun beschrieben.
  • 3 zeigt Komponenten des Parsers für natürliche Sprache 112 detaillierter. Insbesondere umfasst das Sprachverständnismodul 228 einen lokalen Parser 260, um vorherbestimmte relevante aufgabenbezogene Fragmente zu identifizieren. Das Sprachverständnismoduls 228 umfasst außerdem einen globalen Parser 262, um die Gesamtsemantik der Anforderung des Benutzers zu extrahieren.
  • Der lokale Parser 260 nutzt in der bevorzugten Ausführungsform kleine und mehrfache Grammatiken zusammen mit mehreren Durchläufen und einem eindeutigen Scoring-Mechanismus, um Parsenhypothesen bereitzustellen. Beispielsweise erkennt der neuartige lokale Parser 260 gemäß diesem Vorgehen Phrasen wie Datumsangaben, Namen von Personen, Filmkategorien, Lebensmittelkategorien und Dergleichen. Wenn ein Sprecher zum Heimunterhaltungssystem sagt: "Nehme mir eine Komödie auf, in der Mel Brooks eine Hauptrolle spielt und die vor dem 23. Januar gezeigt wird", erkennt der lokale Parser: "Komödie" als Filmkategorie; "23. Januar" als Datum; und "Mel Brooks" als Schauspieler. Der globale Parser fügt diese Artikel zusammen (Film, Kategorie, Datum usw.) und erkennt, dass der Sprecher einen Film mit gewissen Randbedingungen aufnehmen möchte.
  • Das Sprachverständnismodul 228 umfasst die Wissensdatenbank 263, die die Semantik eines Gebiets codiert (d.h. das zu erreichende Ziel). In diesem Sinn ist die Wissensdatenbank 263 vorzugsweise eine gebietsspezifische Datenbank, wie unter Bezugszeichen 265 dargestellt und wird vom Dialogmanager 230 verwendet, um festzustellen, ob eine bestimmte Tätigkeit im Zusammenhang mit dem Erreichen eines vorherbestimmten Ziels möglich ist.
  • Die bevorzugte Ausführungsform codiert die Semantik über eine Rahmendatenstruktur 264. Die Rahmendatenstruktur 264 enthält leere Plätze 266, die gefüllt werden, wenn die semantische Interpretation des globalen Parsers 262 dem Rahmen entspricht. Beispielsweise umfasst eine Rahmendatenstruktur (deren Gebiet Tunerbefehle ist) einen leeren Platz zum Angeben des vom Zuschauer angeforderten Kanals für eine Zeitperiode. Wenn der Zuschauer den Kanal angegeben hat, wird der leere Platz mit dieser Information gefüllt. Falls dieser spezielle Rahmen jedoch gefüllt werden muss, nachdem der Zuschauer anfänglich seine Anforderung angegeben hat, weist der Dialogmanager 230 das Antwortmodul 234 an, den Zuschauer aufzufordern, einen gewünschten Kanal anzugeben. Das Antwortmodul 234 kann einen Text-zu-Sprache-Synthesizer umfassen.
  • Die Rahmendatenstruktur 264 umfasst vorzugsweise mehrere Rahmen, die ihrerseits mehrere Plätze haben. Im Fernseher-Abstimmungsbeispiel kann ein Rahmen Plätze haben, die für Attribute eines Films, Regisseurs und Filmtyps bestimmt sind. Ein anderer Rahmen kann Plätze haben, die für mit dem Ort an dem der Film läuft, den Kanal usw. assoziierte Attribute bestimmt sind.
  • Die folgende Bezugsquelle diskutiert globale Parser und Rahmen: R. Kuhn und R. D. Mori, Spoken Dialogues with Computers (Gesprochene Dialoge mit Computern) (Kapitel 14: Sentence Interpretation (Satzinterpretation)), Academic Press, Boston (1998).
  • Der Dialogmanager 230 nutzt die Dialoghistorien-Datendatei 267 zur Unterstützung beim Füllen von leeren Plätzen, bevor er den Sprecher um die Information bittet. Die Dialoghistorien-Datendatei 267 enthält ein Protokoll des Gesprächs, das über die Vorrichtung der vorliegenden Erfindung stattgefunden hat. Beispielsweise gibt der Sprecher an, dass er bzw. sie heute vier Personen beim Abendessen haben wird. Der Dialogmanager 230 würde in der Dialoghistorien-Datendatei 267 ein Protokoll der Zahl von Personen speichern. Wenn danach der Sprecher äußert: "Ich möchte heute Abend auf dem Grill kochen", prüft der Dialogmanager 230 die mit dem Kühlschrank assoziierte Datenbank, um festzustellen, welche Artikel vorhanden sind. Unter Verwendung der Dialoghistorien-Datendatei 267 empfiehlt der Dialogmanager 230 möglicherweise "Schweinskoteletts", da vier Schweinskoteletts vorhanden sind. Basierend auf der Dialoghistorie würde der Dialogmanager nicht Huhn empfehlen, wenn nur eine Portion vorhanden wäre. Wenn eine ausreichende Zahl von Plätzen gefüllt wurde, bittet die vorliegende Erfindung den Sprecher, die Menüauswahl zu überprüfen und zu bestätigen. Wenn also der Dialogmanager 230 durch die Verwendung der Dialoghistorien-Datendatei 267 irgendwelche Annahmen getroffen hat, die sich als falsch herausstelle, kann der Sprecher die Annahme korrigieren.
  • Der Parser für natürliche Sprache 112 analysiert und extrahiert semantisch wichtige und aussagekräftige Themen aus einem lose strukturierten Text aus natürlicher Sprache, der als Ausgabe eines automatischen Spracherkennungssystems (ASR) erzeugt worden sein kann, das von einem Dialog- oder Sprachverständnissystem verwendet wird. Der Parser für natürliche Sprache 112 übersetzt die Texteingabe aus natürlicher Sprache in eine neue Repräsentation, indem er gut strukturierte, Themeninformationen und Daten enthaltende Tags erzeugt und jeden Tag mit den Segmenten des eingegebenen Texts assoziiert, der die getaggten Informationen enthält.
  • Außerdem können Tags in anderen Formen erzeugt werden, wie beispielsweise einer getrennten Liste oder einem semantischen Rahmen.
  • Ein Merkmal des Parsers für natürliche Sprache 112 ist Robustheit, da die Eingabe aus den folgenden Gründen grammatikalisch inkorrekte englische Sätze enthalten kann: Die Eingabe an den Erkenner ist in formlosem Dialogstil, natürliche Sprache kann unvollständige Sätze, unvollständige Phrasen und vom Spracherkenner eingefügte, ausgelassene oder falsch erkannte Fehler enthalten, selbst wenn die Spracheingabe als korrekt betrachtet wird. Der Parser für natürliche Sprache 112 handhabt alle Arten von Eingabe robust und extrahiert so viele Informationen wie möglich. Obwohl hier die englische Sprache veranschaulicht wird, kann die Erfindung für jede beliebige Sprache realisiert werden.
  • 4 zeigt die verschiedenen Komponenten des neuartigen lokalen Parsers 260 des Parsers für natürliche Sprache 112. Der Parser für natürliche Sprache 112 nutzt vorzugsweise verallgemeinerte Parsing-Techniken in einem Vorgehen mit mehreren Durchläufen als Festpunktberechnung. Jedes Thema wird als kontextsensitive LR-Grammatik (Links-rechts- und Rechts-Ableitung) beschrieben, die Mehrdeutigkeiten zulässt. Die folgenden Bezugsquellen behandeln kontextsensitive LR-Grammatiken: A. Aho und J. D. Ullman, Principles of Compiler Design (Grundlagen der Compiler-Auslegung), Addison Wesley Publishing Co., Reading, Massachusetts (1977); und N. Tomita, Generalized LR Parsing (Verallgemeinertes LR-Parsing), Kluwer Academic Publishers, Boston, Massachusetts (1991).
  • In jedem Durchlauf der Berechnung wird ein verallgemeinerter Parsingalgorithmus verwendet, um vorzugsweise alle möglichen (sowohl vollständigen als auch unvollständigen) Parsebäume unabhängig für jedes angesteuerte Thema zu generieren. Jeder Durchlauf generiert potenziell mehrere alternative Parsebäume, wobei jeder Parsebaum eine möglicherweise verschiedene Interpretation eines bestimmten Themas darstellt. Die mehreren Durchgänge entlang vorzugsweise parallelen und unabhängigen Pfaden führen zu einer wesentlichen Eliminierung von Mehrdeutigkeiten und Überlappungen unter verschiedenen Themen. Der verallgemeinerte Parsingalgorithmus ist ein systematisches Vorgehen, um alle möglichen Parsebäume zu treffen, so dass die (N)-besten Kandidaten unter Verwendung der im System vorhandenen Kontextinformationen ausgewählt werden.
  • Das lokale Parsingsystem 260 wird in drei Stufen ausgeführt: lexikalische Analyse 320; parallele Parsewaldgenerierung für jedes Thema (beispielsweise Generatoren 330 und 332) und Analyse und Synthese von geparsten Komponenten, wie allgemein unter Bezugszeichen 334 gezeigt.
  • Lexikalische Analyse:
  • Ein Sprecher äußert eine Phrase, die von einem automatischen Spracherkenner 317 erkannt wird, der den Eingabesatz 318 generiert. Die lexikalische Analysestufe 320 identifiziert und generiert unter Verwendung von lexikalischen Filtern 326 und 328 Tags für die Themen (die keine ausgedehnten Grammatiken benötigen) im Eingabesatz 318. Diese umfassen, beispielsweise in der Heimunterhaltungsanwendung, Filmnamen, Filmkategorie, Produzenten, Namen von Schauspielern und Schauspielerinnen. Ein Scan nach regulären Ausdrücken im Eingabesatz 318 unter Anwendung der in den erwähnten beispielhaften Tags enthaltenen Schlüsselwörtern ist auf dieser Stufe typischerweise ausreichend. Außerdem wird auf dieser Stufe das Tagging von Wörtern im Eingabesatz durchgeführt, die nicht Teil des Lexikons der jeweiligen Grammatik sind. Diese Wörter werden mit einem X-Tag gekennzeichnet, so dass solche Störwörter durch den Buchstaben "X" ersetzt werden.
  • Parallele Parsewaldgenerierung:
  • Der Parser 112 verwendet eine anspruchsvolle Parsingstrategie, um jedes Thema getrennt zu beschreiben und zu parsen und generiert Tags und bildet sie auf dem Eingabestrom ab. Aufgrund der Eigenschaften des unstrukturierten Eingabetexts 318 akzeptiert jeder einzelne Themenparser vorzugsweise eine möglichst große Sprache, ignoriert alle außer den wichtigen Wörtern und behandelt Einfüge- und Löschfehler. Beim Parsing jedes Themas werden unter Verwendung einer Metaebenen-Spezifikationssprache kontextsensitive Grammatikregeln entwickelt, ähnlich wie die beim LR-Parsing verwendeten. Beispiele von Grammatiken sind Grammatik A 340 und Grammatik B 342. Unter Anwendung des Vorgehens der vorliegenden Erfindung werden die Themengrammatiken 340 und 342 so beschrieben, als wären sie eine Grammatik vom Typ LR mit Redundanzen und ohne Verschiebungen zu eliminieren und Konflikte zu verringern. Das Ergebnis des Parsing eines Eingabesatzes ist alle möglichen auf den Grammatikspezifikationen basierende Parsen.
  • Die Generatoren 330 und 332 generieren die Parsewälder 350 und 352 für ihre Themen. Die Tag-Generierung erfolgt durch Synthetisieren von tatsächlichen Informationen, die im beim Parsing erhaltenen Parsebaum gefunden werden. Die Tag-Generierung erfolgt über die Tag- und Score-Generatoren 360 und 362, die jeweils die Tags 364 bzw. 366 generieren. Jeder identifizierte Tag trägt außerdem Informationen dazu, welche Menge von Eingabewörtern im Eingabesatz vom Tag abgedeckt werden. Anschließend ersetzt der Tag die von ihm abgedeckte Menge. In der bevorzugten Ausführungsform werden die Kontextinformationen 367 zur Tag- und Score-Generierung genutzt, beispielsweise durch die Generatoren 360 und 362. Die Kontextinformationen 367 werden in der Scoring-Heuristik genutzt, um Gewichte anzupassen, die mit einer heuristischen Scoring-Faktortechnik assoziiert sind, die nachfolgend beschrieben wird. Die Kontextinformationen 367 umfassen vorzugsweise den Wortvertrauensvektor 368 und Dialogkontextgewichte 369. Es ist jedoch zu beachten, dass der Parser 112 nicht darauf beschränkt ist, den Wortvertrauensvektor 368 und die Dialogkontextgewichte 369 zu verwenden, sondern auch die Verwendung von einem unter Ausschluss des anderen sowie die Nicht-Verwendung der Kontextinformationen 367 umfasst.
  • Der automatische Spracherkennungs-Prozessblock 317 generiert den Wortvertrauensvektor 368, der angibt, wie gut die Wörter im Eingabesatz 318 erkannt wurden. Der Dialogmanager 230 generiert Dialogkontextgewichte, 369, indem er den Zustand des Dialogs bestimmt. Beispielsweise befragt ein Dialogmanager 230 einen Benutzer zu einem bestimmten Thema, beispielsweise, welche Sendezeit vorzuziehen ist. Aufgrund dieser Anfrage bestimmt der Dialogmanager 230, dass der Zustand des Dialogs zeitorientiert ist. Der Dialogmanager 230 liefert Dialogkontextgewichte 369, um den entsprechenden Prozessen mitzuteilen, dass sie die erkannten zeitorientierten Wörter stärker gewichten sollen.
  • Synthese von Tap-Komponenten:
  • Der Themenerkennungsparser der vorherigen Stufe generiert eine erhebliche Menge von Informationen, die analysiert und zusammengeführt werden müssen, um die endgültige Ausgabe des lokalen Parsers zu bilden. Der Parser 112 ist vorzugsweise so "aggressiv" wie möglich beim Erkennen jedes Themas, was zur Generierung von mehreren Tag-Kandidaten führt. Außerdem ist es, in Anwesenheit von Zahlen oder gewissen Schlüsselwörtern, wie beispielsweise "zwischen", "vor", "und", "oder", "um ungefähr" usw. und insbesondere wenn diese Wörter durch Erkennungsfehler eingeführt oder ausgelassen wurden, möglich, viele alternative Tag-Kandidaten zu erstellen. Beispielsweise könnte ein Eingabesatz Einfüge- oder Löschfehler haben. Die Zusammenführungsphase bestimmt, welche Tags eine aussagekräftigere Interpretation der Eingabe bilden. Der Parser 112 definiert Heuristiken und nimmt unter Verwendung eines Auswahlprozesses für die N-besten Kandidaten eine Auswahl basierend auf ihnen vor. Jeder generierte Tag entspricht einer Menge von Wörtern in der Eingabewortfolge, die Deckungsmenge des Tags genannt wird.
  • Es wird eine Heuristik verwendet, die die Deckungsmengen der zum Generieren eines Scores verwendeten Tags berücksichtigt. Der Score hängt grob ab von der Größe der Deckungsmenge, den Größen in der Zahl der Wörter der Lücken in den abgedeckten Objekten und den der Anwesenheit gewisser Schlüsselwörter zugeordneten Gewichten. In der bevorzugten Ausführungsform werden Informationen zum durch ASR gewonnenen Vertrauensvektor und zum Dialogkontext verwendet, um den Tags Prioritäten zuzuordnen. Beispielsweise entfernt die Anwendung von Kanal-Tags-Parsing zuerst potenziell kanalbezogene Zahlen, die im Eingabestrom leichter eindeutig zu identifizieren sind und hinterlässt weniger Zahlen, die Mehrdeutigkeiten mit anderen Tags erzeugen können. Vorzugsweise werden Dialogkontextinformationen verwendet, um die Prioritäten anzupassen.
  • Auswahl von N-besten Kandidaten
  • Am Ende jedes Durchlaufs wählt ein N-beste-Prozessor 370 die N-besten Kandidaten basierend auf den mit den Tags assoziierten Scores und generiert die Themen-Tags, die jeweils die im entsprechenden Parsebaum gefundenen Informationen repräsentieren. Nachdem Themen auf diese Weise erkannt wurden, können die entsprechenden Wörter in der Eingabe durch die Tag-Informationen ersetzt werden. Diese Substitutionstransformation eliminiert die entsprechenden Wörter aus dem aktuellen Eingabetext. Die Ausgabe 380 jedes Durchgangs wird als neue Eingabe an den nächsten Durchgang zurückgeleitet, da die Substitutionen beim Eliminieren gewisser Mehrdeutigkeiten unter konkurrierenden Grammatiken helfen können oder helfen können, durch Herausfiltern überlappender Symbole bessere Parsebäume zu generieren.
  • Die Berechnung endet, wenn im letzten Durchlauf keine zusätzlichen Tags generiert werden. Die Ausgabe des letzten Durchlaufs wird zur Ausgabe des lokalen Parsers an den globalen Parser 262. Da jede Phase nur die Zahl der Wörter in ihrer Eingabe verringern kann und die Länge des Eingabetexts endlich ist, ist die Zahl der Durchläufe in der Festpunktberechnung von der Größe ihrer Eingabe linear beschränkt.
  • Die folgenden neuartigen Scoring-Faktoren werden verwendet, um die alternativen Parsebäume basierend auf den folgenden Attributen eines Parsebaums in eine Rangordnung zu ordnen:
    • • Zahl der Endsymbole.
    • • Zahl der Nicht-Endsymbole.
    • • Tiefe des Parsebaums.
    • • Größe der Lücken in den Endsymbolen.
    • • Mit jedem Endsymbol assoziierte ASR-Vertrauensmaße.
    • • Mit jedem Endsymbol und jedem Nicht-Endsymbol assoziierte, nach Kontext anpassbare Gewichte.
  • Jeder Pfad entspricht vorzugsweise einem eigenen Thema, dass unabhängig entwickelt werden kann und arbeitet mit geringem Rechenaufwand an einer kleinen Datenmenge. Die Architektur des Parsers 112 ist flexibel und modular, so dass das Integrieren zusätzlicher Pfade und Grammatiken für neue Themen oder das Ändern von Heuristiken für bestimmte Themen einfach sind. Das ermöglicht außerdem die Entwicklung von wiederverwendbaren Komponenten, die leicht von verschiedenen Systemen gemeinsam genutzt werden können.
  • Aus dem Vorangehenden wird man einsehen, dass die vorliegende Erfindung eine benutzerfreundliche und schnelle Möglichkeit für die Interaktion mit der ansonsten komplexen elektronischen Programmführung bereitstellt. Durch Unterhaltung in natürlicher Sprache kann der Benutzer das System bitten, Informationen in der Programmführung zu finden und die ausgegebenen Informationen werden in leicht verständlichen Stücken angezeigt. Das Ergebnis ist eine gemischte Informationspräsentation, die die Einfachheit des Dialogs in natürlicher Sprache mit der unkomplizierten Darstellung von Bildschirmanzeigen bietet. Obwohl die Erfindung in ihrer gegenwärtig bevorzugten Form beschrieben wurde, ist zu beachten, dass die Erfindung abgewandelt werden kann, ohne vom Umfang der Erfindung gemäß den angehängten Patentansprüchen abzuweichen.

Claims (15)

  1. Informationsfilterungssystem für ein Haushaltsnetzwerk mit einer Vielzahl von darin kommunizierenden Haushaltskomponenten, wobei das Filterungssystem Folgendes umfasst: einen Spracherkenner mit einem Parser zum Extrahieren von semantischen Informationen aus der von einem Benutzer eingegebenen Sprache, wobei der Parser zusammen mit einer gewählten elektronischen Tätigkeitsfühnung arbeitet; einen Datenspeicher, der eine Vielzahl von elektronischen Tätigkeitsführungen enthält, die der Vielzahl von Haushaltskomponenten entsprechen, basierend auf den semantischen Informationen und zum Bereitstellen gefilterter, mit den Haushaltskomponenten assoziierten Informationen; und ein Mittel zum Wählen der besten elektronischen Tätigkeitsführung durch Identifizieren der Grammatik, die den höchsten semantischen Erkennungs-Score liefert.
  2. System nach Anspruch 1, wobei die Haushaltskomponenten aus der aus Audio/Video-Geräten, Haushaltsgeräten, Computern, Haushaltsautomatisierungssystemen, Brandalarmsystemen, Einbruchalarmsystemen, Telefonsystemen, Gegensprechsystemen, Gateway-Systemen und Internetzugriffssystemen bestehenden Gruppe ausgewählt sind.
  3. System nach Anspruch 1, wobei ein Dialogmanager dem Benutzer die gefilterten Informationen in hörbarer oder sichtbarer Form bereitstellt.
  4. System nach Anspruch 1, weiter umfassend ein an den Datenspeicher gekoppeltes Abbildungsmodul, um den Inhalt des Datenspeichers ab einer Quelle für elektronische Tätigkeitsführungsinformationen zu aktualisieren.
  5. System nach Anspruch 1, weiter umfassend ein Haushalts-Gateway-Modul, dass das Netzwerk an das Internet koppelt und wobei das Filterungssystem über das Internet erhaltene Informationen basierend auf den semantischen Informationen filtert.
  6. System nach Anspruch 1, wobei eine Haushaltskomponente ein zugehöriges Mikrofon umfasst, über das der Benutzer Eingabesprache bereitstellt.
  7. System nach Anspruch 1, wobei eine Haushaltskomponente eine zugehörige Anzeige umfasst, mittels derer der Dialogmanager die gefilterten Informationen bereitstellt.
  8. System nach Anspruch 1, wobei ein Dialogmanager einen Sprachsynthesizer umfasst, um dem Benutzer Informationen als synthetisierte Sprache bereitzustellen.
  9. System nach Anspruch 1, wobei ein Dialogmanager einen Sprachsynthesizer umfasst, um dem Benutzer die gefilterten Informationen als synthetisierte Sprache bereitzustellen.
  10. System nach Anspruch 1, wobei der Parser ein zielorientierter Parser ist, der eine Vielzahl von zielorientierten Rahmen mit Plätzen hat, die in der elektronischen Tätigkeitsführung repräsentierten Informationen entsprechen.
  11. System nach Anspruch 1, wobei der Parser ein Parser für natürliche Sprache ist mit einer Menge vordefinierter Grammatiken, die den in der elektronischen Tätigkeitsführung repräsentierten Informationen entsprechen.
  12. System nach Anspruch 4, wobei das Abbildungsmodul ein Abbildungsmodul-Aktualisierungssystem umfasst, um die Funktionalität des Abbildungsmodul basierend auf von einem entfernten Ort erhaltenen Informationen zu aktualisieren.
  13. System nach Anspruch 1, wobei ein Dialogmanager einen Benutzerprofil-Datenspeicher umfasst, um eine Repräsentation der vergangenen Nutzung des Filterungssystems eines Benutzers zu speichern und wobei der Dialogmanager den Profildatenspeicher verwendet, um die gespeicherte elektronische Tätigkeitsführungsrepräsentation weiter zu filtern.
  14. System nach Anspruch 1, weiter umfassend einen Benutzerprofil-Datenspeicher und ein Sprecherverifizierungssystem, um auf den Benutzerprofil-Datenspeicher zuzugreifen.
  15. System nach Anspruch 1, weiter umfassend einen Benutzerprofil-Datenspeicher und ein Sprecheridentifizierungssystem, um auf den Benutzerprofil-Datenspeicher zuzugreifen.
DE60217579T 2001-06-06 2002-04-26 Automatische Steuerung von Hausgeräten mittels Erkennung von natürlicher Sprache Expired - Fee Related DE60217579T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/875,740 US6513006B2 (en) 1999-08-26 2001-06-06 Automatic control of household activity using speech recognition and natural language
US875740 2001-06-06

Publications (2)

Publication Number Publication Date
DE60217579D1 DE60217579D1 (de) 2007-03-08
DE60217579T2 true DE60217579T2 (de) 2007-11-08

Family

ID=25366284

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60217579T Expired - Fee Related DE60217579T2 (de) 2001-06-06 2002-04-26 Automatische Steuerung von Hausgeräten mittels Erkennung von natürlicher Sprache

Country Status (5)

Country Link
US (1) US6513006B2 (de)
EP (1) EP1265227B1 (de)
JP (1) JP3711089B2 (de)
CN (1) CN1213400C (de)
DE (1) DE60217579T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011109932A1 (de) * 2011-08-10 2013-02-14 Audi Ag Verfahren zum Ansteuern funktioneller Einrichtungen in einem Fahrzeug bei Sprachbefehl-Bedienung

Families Citing this family (241)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725493B2 (en) * 2004-01-06 2014-05-13 Neuric Llc Natural language parsing method to provide conceptual flow
US8001067B2 (en) * 2004-01-06 2011-08-16 Neuric Technologies, Llc Method for substituting an electronic emulation of the human brain into an application to replace a human
US20070156625A1 (en) * 2004-01-06 2007-07-05 Neuric Technologies, Llc Method for movie animation
US7925492B2 (en) 2004-01-06 2011-04-12 Neuric Technologies, L.L.C. Method for determining relationships through use of an ordered list between processing nodes in an emulated human brain
US7089218B1 (en) 2004-01-06 2006-08-08 Neuric Technologies, Llc Method for inclusion of psychological temperament in an electronic emulation of the human brain
US7831930B2 (en) * 2001-11-20 2010-11-09 Universal Electronics Inc. System and method for displaying a user interface for a remote control application
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
JP2001197379A (ja) * 2000-01-05 2001-07-19 Matsushita Electric Ind Co Ltd 機器設定装置、機器設定システムおよび機器設定処理プログラムを記録した記録媒体
DE10002321C2 (de) * 2000-01-20 2002-11-14 Micronas Munich Gmbh Sprachgesteuerte Vorrichtung und System mit einer derartigen sprachgesteuerten Vorrichtung
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20070078552A1 (en) * 2006-01-13 2007-04-05 Outland Research, Llc Gaze-based power conservation for portable media players
JP2001319045A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
US20020087316A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented grammar-based speech understanding method and system
DE60233561D1 (de) * 2001-04-19 2009-10-15 British Telecomm Sprachantwortsystem
US20030023431A1 (en) * 2001-07-26 2003-01-30 Marc Neuberger Method and system for augmenting grammars in distributed voice browsing
EP1304662A3 (de) * 2001-10-18 2005-01-12 Matsushita Electric Industrial Co., Ltd. Verfahren und System zum Vermeiden von Vorfällen
EP1315147A1 (de) * 2001-11-27 2003-05-28 Sony International (Europe) GmbH Methode zur Bearbeitung von User-Anfragen mit Bezug auf ein Netz von elektronischen Geräten
EP1466307A1 (de) * 2002-01-08 2004-10-13 Philips Electronics N.V. Gleichzeitige steuerung von auftragsvorrichtungen
US7949513B2 (en) * 2002-01-22 2011-05-24 Zi Corporation Of Canada, Inc. Language module and method for use with text processing devices
US6895379B2 (en) * 2002-03-27 2005-05-17 Sony Corporation Method of and apparatus for configuring and controlling home entertainment systems through natural language and spoken commands using a natural language server
CN100559341C (zh) * 2002-04-09 2009-11-11 松下电器产业株式会社 声音提供***,服务器,客户机,信息提供管理服务器以及声音提供方法
US7640563B2 (en) * 2002-04-16 2009-12-29 Microsoft Corporation Describing media content in terms of degrees
US7073193B2 (en) 2002-04-16 2006-07-04 Microsoft Corporation Media content descriptions
US7062339B2 (en) * 2002-05-09 2006-06-13 Matsushita Electric Industrial Co., Ltd. Method and apparatus for communicating between a portable device and a server
US7617511B2 (en) * 2002-05-31 2009-11-10 Microsoft Corporation Entering programming preferences while browsing an electronic programming guide
US20030225777A1 (en) * 2002-05-31 2003-12-04 Marsh David J. Scoring and recommending media content based on user preferences
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7836466B2 (en) 2002-06-06 2010-11-16 Microsoft Corporation Methods and systems for generating electronic program guides
US20040001081A1 (en) * 2002-06-19 2004-01-01 Marsh David J. Methods and systems for enhancing electronic program guides
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
JP4300767B2 (ja) * 2002-08-05 2009-07-22 ソニー株式会社 ガイドシステム、コンテンツサーバ、携帯装置、情報処理方法、情報処理プログラム、及び記憶媒体
US7249019B2 (en) 2002-08-06 2007-07-24 Sri International Method and apparatus for providing an integrated speech recognition and natural language understanding for a dialog system
US20040044515A1 (en) * 2002-08-30 2004-03-04 Michael Metcalf Automated natural language inference system
ATE371247T1 (de) * 2002-11-13 2007-09-15 Bernd Schoenebeck Sprachverarbeitendes system und verfahren
US20040167887A1 (en) * 2002-12-06 2004-08-26 Attensity Corporation Integration of structured data with relational facts from free text for data mining
US7249023B2 (en) * 2003-03-11 2007-07-24 Square D Company Navigated menuing for industrial human machine interface via speech recognition
US7296223B2 (en) * 2003-06-27 2007-11-13 Xerox Corporation System and method for structured document authoring
US20050010416A1 (en) * 2003-07-09 2005-01-13 Gensym Corporation System and method for self management of health using natural language interface
US20050114141A1 (en) * 2003-09-05 2005-05-26 Grody Stephen D. Methods and apparatus for providing services using speech recognition
US20080243741A1 (en) * 2004-01-06 2008-10-02 Neuric Technologies, Llc Method and apparatus for defining an artificial brain via a plurality of concept nodes connected together through predetermined relationships
US20070250464A1 (en) * 2004-01-06 2007-10-25 Neuric Technologies, Llc Historical figures in today's society
US7668720B2 (en) * 2004-02-20 2010-02-23 Vangard Voice Systems, Inc. Methodology for voice enabling applications
US8119174B2 (en) * 2004-04-26 2012-02-21 General Mills Ip Holdings Ii, Llc Low sugar presweetened dry coated cereals and method of preparation
JP2005321730A (ja) * 2004-05-11 2005-11-17 Fujitsu Ltd 対話システム、対話システム実行方法、及びコンピュータプログラム
WO2006016307A1 (en) * 2004-08-06 2006-02-16 Philips Intellectual Property & Standards Gmbh Ontology-based dialogue system with application plug-and-play and information sharing
US8086462B1 (en) * 2004-09-09 2011-12-27 At&T Intellectual Property Ii, L.P. Automatic detection, summarization and reporting of business intelligence highlights from automated dialog systems
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US8473449B2 (en) * 2005-01-06 2013-06-25 Neuric Technologies, Llc Process of dialogue and discussion
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US20060194181A1 (en) * 2005-02-28 2006-08-31 Outland Research, Llc Method and apparatus for electronic books with enhanced educational features
US20060235701A1 (en) * 2005-04-13 2006-10-19 Cane David A Activity-based control of a set of electronic devices
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
US7865478B2 (en) 2005-06-04 2011-01-04 International Business Machines Corporation Based on repeated experience, system for modification of expression and negating overload from media and optimizing referential efficiency
US7774713B2 (en) * 2005-06-28 2010-08-10 Microsoft Corporation Dynamic user experience with semantic rich objects
US7438414B2 (en) 2005-07-28 2008-10-21 Outland Research, Llc Gaze discriminating electronic control apparatus, system, method and computer program product
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US8265939B2 (en) 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8620667B2 (en) * 2005-10-17 2013-12-31 Microsoft Corporation Flexible speech-activated command and control
US20070003913A1 (en) * 2005-10-22 2007-01-04 Outland Research Educational verbo-visualizer interface system
US7429108B2 (en) * 2005-11-05 2008-09-30 Outland Research, Llc Gaze-responsive interface to enhance on-screen user reading tasks
US7606700B2 (en) * 2005-11-09 2009-10-20 Microsoft Corporation Adaptive task framework
US7822699B2 (en) * 2005-11-30 2010-10-26 Microsoft Corporation Adaptive semantic reasoning engine
US20070106496A1 (en) * 2005-11-09 2007-05-10 Microsoft Corporation Adaptive task framework
US20070040033A1 (en) * 2005-11-18 2007-02-22 Outland Research Digital mirror system with advanced imaging features and hands-free control
US20070130134A1 (en) * 2005-12-05 2007-06-07 Microsoft Corporation Natural-language enabling arbitrary web forms
US7933914B2 (en) * 2005-12-05 2011-04-26 Microsoft Corporation Automatic task creation and execution using browser helper objects
US7831585B2 (en) * 2005-12-05 2010-11-09 Microsoft Corporation Employment of task framework for advertising
JP4603988B2 (ja) * 2006-01-31 2010-12-22 キヤノン株式会社 情報処理装置および方法
JP5248867B2 (ja) * 2006-01-31 2013-07-31 本田技研工業株式会社 会話システムおよび会話ソフトウェア
US7996783B2 (en) * 2006-03-02 2011-08-09 Microsoft Corporation Widget searching utilizing task framework
JP5099367B2 (ja) * 2006-03-10 2012-12-19 日本電気株式会社 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム
US7505951B2 (en) * 2006-05-30 2009-03-17 Motorola, Inc. Hierarchical state machine generation for interaction management using goal specifications
US7797672B2 (en) * 2006-05-30 2010-09-14 Motorola, Inc. Statechart generation using frames
US7657434B2 (en) * 2006-05-30 2010-02-02 Motorola, Inc. Frame goals for dialog system
US7626572B2 (en) * 2006-06-15 2009-12-01 Microsoft Corporation Soap mobile electronic human interface device
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP2066662B1 (de) * 2006-09-21 2012-12-05 Kyorin Pharmaceutical Co., Ltd. Serinhydrolasehemmer
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US20080147364A1 (en) * 2006-12-15 2008-06-19 Motorola, Inc. Method and apparatus for generating harel statecharts using forms specifications
US20080165195A1 (en) * 2007-01-06 2008-07-10 Outland Research, Llc Method, apparatus, and software for animated self-portraits
US8078502B2 (en) * 2007-02-01 2011-12-13 International Business Machines Corporation Populating an E-commerce shopping cart and other E-commerce fields based upon content extracted from natural language input
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8630841B2 (en) * 2007-06-29 2014-01-14 Microsoft Corporation Regular expression word verification
US20090018818A1 (en) * 2007-07-10 2009-01-15 Aibelive Co., Ltd. Operating device for natural language input
US8868479B2 (en) 2007-09-28 2014-10-21 Telogis, Inc. Natural language parsers to normalize addresses for geocoding
US8112280B2 (en) * 2007-11-19 2012-02-07 Sensory, Inc. Systems and methods of performing speech recognition with barge-in for use in a bluetooth system
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
JP5049934B2 (ja) * 2008-09-22 2012-10-17 株式会社東芝 対話文生成装置及び方法
US20100088262A1 (en) * 2008-09-29 2010-04-08 Neuric Technologies, Llc Emulated brain
TWI383752B (zh) 2008-10-28 2013-02-01 Ind Tech Res Inst 結合語音辨識功能之食品製造裝置
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
DE102009011395A1 (de) * 2009-03-03 2010-09-09 Rohde & Schwarz Gmbh & Co. Kg System zur sprachgesteuerten Steuerung von Messgeräten
US8463720B1 (en) 2009-03-27 2013-06-11 Neuric Technologies, Llc Method and apparatus for defining an artificial brain via a plurality of concept nodes defined by frame semantics
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
US8560311B2 (en) * 2009-09-23 2013-10-15 Robert W. Williams System and method for isolating uncertainty between speech recognition and natural language processing
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
CN102132945B (zh) * 2010-01-21 2014-04-02 财团法人工业技术研究院 结合语意辨识功能的食品制造装置
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9342500B2 (en) * 2010-03-15 2016-05-17 Michael V. Liguori Object memory management system
CN102237087B (zh) * 2010-04-27 2014-01-01 中兴通讯股份有限公司 语音控制方法和语音控制装置
KR20120066180A (ko) * 2010-12-14 2012-06-22 한국전자통신연구원 시맨틱 홈 네트워크 관리 시스템, 시맨틱 홈 네트워크 관리를 위한 클라우드 추론 장치, 시맨틱 홈 네트워크, 시맨틱 홈 네트워크 접속 장치
CN102075797A (zh) * 2010-12-29 2011-05-25 深圳市同洲电子股份有限公司 一种语音浏览频道或节目的方法及数字电视接收终端
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
JP5758713B2 (ja) * 2011-06-22 2015-08-05 株式会社日立製作所 音声合成装置、ナビゲーション装置および音声合成方法
AU2012304700B2 (en) * 2011-09-06 2016-07-28 Savant Systems, Inc. Integrated private branch exchange and device control system
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
TWI528760B (zh) 2011-12-22 2016-04-01 萬國商業機器公司 用於在無線感測網路中路由資料的方法
CN103297389B (zh) * 2012-02-24 2018-09-07 腾讯科技(深圳)有限公司 人机对话方法及装置
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
FR2989209B1 (fr) * 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
US9093076B2 (en) 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9431012B2 (en) * 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
CN102722186A (zh) * 2012-06-28 2012-10-10 深圳大学 一种基于语音识别的移动伺服平台及语音控制方法
US9053708B2 (en) * 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9922646B1 (en) 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
US8473300B1 (en) * 2012-09-26 2013-06-25 Google Inc. Log mining to modify grammar-based text processing
US20140156281A1 (en) * 2012-12-03 2014-06-05 Qualcomm Incorporated Voice-controlled configuration of an automation system
CN103915095B (zh) * 2013-01-06 2017-05-31 华为技术有限公司 语音识别的方法、交互设备、服务器和***
US20140195233A1 (en) * 2013-01-08 2014-07-10 Spansion Llc Distributed Speech Recognition System
KR102112742B1 (ko) * 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
US9875494B2 (en) 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (de) 2013-06-09 2022-01-12 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
KR101834546B1 (ko) * 2013-08-28 2018-04-13 한국전자통신연구원 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
CN103474071A (zh) * 2013-09-16 2013-12-25 重庆邮电大学 嵌入式便携语音控制器及语音识别的智能家居***
US10089976B2 (en) * 2013-10-14 2018-10-02 Honeywell International Inc. Building automation systems with voice control
USRE49284E1 (en) 2013-10-17 2022-11-08 Panasonic Intellectual Property Corporation Of America Method for controlling cordless telephone device, handset of cordless telephone device, and cordless telephone device
JP6309382B2 (ja) * 2013-10-17 2018-04-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America コードレス電話機器の制御方法、コードレス電話機器の子機及びコードレス電話機器
US10162813B2 (en) * 2013-11-21 2018-12-25 Microsoft Technology Licensing, Llc Dialogue evaluation via multiple hypothesis ranking
US10832005B1 (en) * 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
US20150286486A1 (en) * 2014-01-16 2015-10-08 Symmpl, Inc. System and method of guiding a user in utilizing functions and features of a computer-based device
US10846112B2 (en) 2014-01-16 2020-11-24 Symmpl, Inc. System and method of guiding a user in utilizing functions and features of a computer based device
EP2933796B1 (de) * 2014-04-17 2018-10-03 Softbank Robotics Europe Ausführen von Softwareanwendungen an einem Roboter
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9703616B2 (en) 2014-08-05 2017-07-11 International Business Machines Corporation Executing a command on an optimal smart device
US10019889B2 (en) 2014-08-13 2018-07-10 Thomson Licensing Enhanced detection devices using consumer communication devices for additional notifications
WO2016025149A1 (en) * 2014-08-13 2016-02-18 Thomson Licensing Emergency alert system (eas) atsc alarms
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US20160125721A1 (en) * 2014-10-29 2016-05-05 Verizon Patent And Licensing Inc. Alerting users when a user device is dropped
KR20160056548A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
CN104360664A (zh) * 2014-11-25 2015-02-18 智房科技股份有限公司 家居生活智能化控制***
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
EP3079372A1 (de) * 2015-04-10 2016-10-12 Thomson Licensing Fernsehsteuerung durch natürliche spracheingabe
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10348798B2 (en) 2015-08-05 2019-07-09 Facebook, Inc. Rules engine for connected devices
US10412160B2 (en) 2015-08-05 2019-09-10 Facebook, Inc. Controlling a device cloud
US10541958B2 (en) * 2015-08-05 2020-01-21 Facebook, Inc. Controlling a device cloud
US10567479B2 (en) * 2015-08-05 2020-02-18 Facebook, Inc. Managing a device cloud
US10425392B2 (en) * 2015-08-05 2019-09-24 Facebook, Inc. Managing a device cloud
US10339916B2 (en) 2015-08-31 2019-07-02 Microsoft Technology Licensing, Llc Generation and application of universal hypothesis ranking model
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10018977B2 (en) 2015-10-05 2018-07-10 Savant Systems, Llc History-based key phrase suggestions for voice control of a home automation system
CN105185378A (zh) * 2015-10-20 2015-12-23 珠海格力电器股份有限公司 声控方法、声控***及能够进行声控的空调
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN107404567A (zh) * 2016-05-19 2017-11-28 美的集团股份有限公司 通过语音盒控制移动终端的方法和***
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
CN107765838A (zh) * 2016-08-18 2018-03-06 北京北信源软件股份有限公司 人机交互辅助方法及装置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP6659514B2 (ja) 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
US11354089B2 (en) * 2016-12-09 2022-06-07 Robert Bosch Gmbh System and method for dialog interaction in distributed automation systems
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107221328B (zh) * 2017-05-25 2021-02-19 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
US10546023B2 (en) * 2017-10-03 2020-01-28 Google Llc Providing command bundle suggestions for an automated assistant
CN108039172A (zh) * 2017-12-01 2018-05-15 Tcl通力电子(惠州)有限公司 智能蓝牙音箱语音交互方法、智能蓝牙音箱及存储介质
US11182122B2 (en) 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10503468B2 (en) * 2017-12-08 2019-12-10 Amazon Technologies, Inc. Voice enabling applications
US10991369B1 (en) * 2018-01-31 2021-04-27 Progress Software Corporation Cognitive flow
JP7012883B2 (ja) 2018-05-07 2022-01-28 グーグル エルエルシー 自動化されたアシスタントルーチン内に含めるための自動化されたアシスタントアクションを推奨すること
US10607610B2 (en) 2018-05-29 2020-03-31 Nortek Security & Control Llc Audio firewall
DE102018213024A1 (de) * 2018-08-03 2020-02-06 Robert Bosch Gmbh Verfahren zur Sprachbedienung zumindest eines elektronischen Gerätes, insbesondere eines Hausgerätes eines Haushalts, sowie System
WO2020076795A2 (en) * 2018-10-08 2020-04-16 Google Llc Summarily conveying smart appliance statuses
US10885904B2 (en) 2018-11-21 2021-01-05 Mastercard International Incorporated Electronic speech to text conversion systems and methods with natural language capture of proper name spelling
CN113168829A (zh) * 2018-12-03 2021-07-23 谷歌有限责任公司 语音输入处理
US10856041B2 (en) * 2019-03-18 2020-12-01 Disney Enterprises, Inc. Content promotion using a conversational agent
CA3190074A1 (en) * 2020-08-19 2022-02-24 Wayne M. KENNARD System and method for generating decision confidence index scores and bias assessment scores for interactive decision-making
WO2022072154A1 (en) * 2020-10-01 2022-04-07 Arris Enterprises Llc Controlling a media device to provide an improved sonic environment for the reception of a voice command
JP2022182212A (ja) * 2021-05-27 2022-12-08 有限会社アクアプラネット 記録整理プログラム、記録整理方法、記録整理装置、および、記録媒体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5832439A (en) * 1995-12-14 1998-11-03 U S West, Inc. Method and system for linguistic command processing in a video server network
AU3294997A (en) * 1996-06-13 1998-01-07 Starsight Telecast Incorporated Method and apparatus for searching a guide using program characteristics
US5893064A (en) * 1997-05-14 1999-04-06 K2 Interactive Llc Speech recognition method and apparatus with voice commands and associated keystrokes
EP0895396A3 (de) * 1997-07-03 2004-01-14 Texas Instruments Incorporated Sprachdialogsystem für Informationszugriff
EP0911808B1 (de) * 1997-10-23 2002-05-08 Sony International (Europe) GmbH Sprachschnittstelle für ein Hausnetzwerk
US6199067B1 (en) * 1999-01-20 2001-03-06 Mightiest Logicon Unisearch, Inc. System and method for generating personalized user profiles and for utilizing the generated user profiles to perform adaptive internet searches
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
DE69942663D1 (de) * 1999-04-13 2010-09-23 Sony Deutschland Gmbh Zusammenfügen von Sprachschnittstellen zur gleichzeitigen Benützung von Vorrichtungen und Anwendungen
US6901366B1 (en) * 1999-08-26 2005-05-31 Matsushita Electric Industrial Co., Ltd. System and method for assessing TV-related information over the internet
US6324512B1 (en) * 1999-08-26 2001-11-27 Matsushita Electric Industrial Co., Ltd. System and method for allowing family members to access TV contents and program media recorder over telephone or internet
US6330537B1 (en) * 1999-08-26 2001-12-11 Matsushita Electric Industrial Co., Ltd. Automatic filtering of TV contents using speech recognition and natural language
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011109932A1 (de) * 2011-08-10 2013-02-14 Audi Ag Verfahren zum Ansteuern funktioneller Einrichtungen in einem Fahrzeug bei Sprachbefehl-Bedienung
US9466314B2 (en) 2011-08-10 2016-10-11 Audi Ag Method for controlling functional devices in a vehicle during voice command operation

Also Published As

Publication number Publication date
EP1265227B1 (de) 2007-01-17
CN1213400C (zh) 2005-08-03
US20010041980A1 (en) 2001-11-15
DE60217579D1 (de) 2007-03-08
US6513006B2 (en) 2003-01-28
JP2003091298A (ja) 2003-03-28
JP3711089B2 (ja) 2005-10-26
CN1389852A (zh) 2003-01-08
EP1265227A1 (de) 2002-12-11

Similar Documents

Publication Publication Date Title
DE60217579T2 (de) Automatische Steuerung von Hausgeräten mittels Erkennung von natürlicher Sprache
DE60012065T2 (de) Verfahren und Vorrichtung zur Fernsehkanalauswahl unter Verwendung von Sprachverständnis
JP3550536B2 (ja) 音声認識及び自然言語を用いたテレビジョン内容の自動的なフィルタリング
DE60005422T2 (de) Automatische Suche nach Tonkanälen mittels Vergleich von vom Benutzer gesprochenen Wörtern im Untertiteltext oder Audioinhalt für interaktives Fernsehen
JP3554262B2 (ja) テレビジョン及びマルチメディアの検索及び要求に対して自然言語のモダリティーを可能にする汎用遠隔制御
US9734825B2 (en) Methods and apparatus for determining a domain based on the content and context of a natural language utterance
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
US8849670B2 (en) Systems and methods for responding to natural language speech utterance
EP1079615A2 (de) System zur Identifizierung und Anpassung des Profiles eines Fernsehbenutzer mittels Sprachtechnologie
Wittenburg et al. The prospects for unrestricted speech input for TV content search
WO2021144155A1 (de) Verfahren, computerprogramm und vorrichtung zum verarbeiten einer nutzereingabe
KR20080052304A (ko) 응답 문장 생성 장치 및 방법
CN115602167A (zh) 显示设备和语音识别方法
DE60119643T2 (de) Homophonewahl in der Spracherkennung
CN117972107A (zh) 一种知识内容生成方法及电子设备
KR101506909B1 (ko) 다른 언어 사용자 간의 채팅을 가능하게 하는 채팅 서비스 제공방법
Kim et al. A spoken dialogue system for electronic program guide information access
Manione et al. Deliverable 5.1 Language Modelling, Dialogue and User Interface the First Set-top-box Related DICIT Prototype

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee