DE60217579T2

DE60217579T2 - Automatische Steuerung von Hausgeräten mittels Erkennung von natürlicher Sprache

Info

Publication number: DE60217579T2
Application number: DE60217579T
Authority: DE
Inventors: John Saratoga Howard; Jean-Claude Santa Barbara Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-06-06
Filing date: 2002-04-26
Publication date: 2007-11-08
Anticipated expiration: 2022-04-27
Also published as: EP1265227B1; CN1213400C; US20010041980A1; DE60217579D1; US6513006B2; JP2003091298A; JP3711089B2; CN1389852A; EP1265227A1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein den interaktiven Informationsabruf. Insbesondere betrifft die Erfindung ein sprachaktiviertes System zum Navigieren durch eine Menüstruktur elektronisch gespeicherter Informationen, so dass dem Benutzer eine optimale Informationsmenge und ein korrekter Informationsinhalt angezeigt werden können.
Es besteht zunehmendes Interesse an der Vergrößerung der Reichweite von Computernetzen im Haushalt. Es werden Haushalts-Gateways entwickelt, um Vernetzungsdienste, Haushaltsautomatisierung und Zugang zu Informationen im ganzen Haus bereitzustellen. Eines der mit dem Bereitstellen solchen Zugangs assoziierten Probleme ist der Informationsabruf. Während große Computeranzeigen relativ gut Informationen in einem bequem nutzbaren gut organisierten Format anzeigen, haben viele Geräte und Systeme im Haushalt keine Anzeigen dieser Größe oder Qualität. Daher sind die meisten Konsumelektronikprodukte und Haushaltsgeräte bisher nur in der Lage, einfache Nachrichten und kleine Informationsmengen anzuzeigen.
Ein gutes Beispiel für den interaktiven Informationsabruf im Zusammenhang mit interaktivem Fernsehen ist in der europäischen Patentanmeldung Nr. EP 1079617 mit dem Titel "Automatic filtering of TV contents using speech recognition natural language" (Automatisches Filtern von TV-Inhalten unter Verwendung von Spracherkennung natürlicher Sprache) offenbart.
Es wird damit gerechnet, dass Benutzer, mit dem Wachstum von Haushaltsnetzwerken, in Zukunft verschiedene Konsumelektronikprodukte und Haushaltsgeräte an das Haushaltsnetzwerk anschließen möchten, damit solche Produkte und Geräte Daten gemeinsam nutzen und miteinander in Wechselwirkung treten können. Diesbezüglich kann das Haushaltsnetzwerk die Kommunikation über verschiedene Kanäle unterstützen, einschließlich über vorhandene Telefonleitungen oder Computernetzwerkleitungen, als Datensignale, die den Wechselstromleitungen überlagert werden oder als Drahtloskommunikation unter Verwendung verschiedener Technologien einschließlich Spread-Spectrum-Radiofrequenz- und Bluetooth-Technologie.
Wenn das Haushaltsnetzwerk aufgebaut ist und eine Reihe verschiedener Elektronikprodukte und Geräte angeschlossen sind, möchten Benutzer ihre angeschlossenen Produkte und Geräte sicherlich als Portale zum Haushaltsnetzwerk nutzen. Das Problem dabei ist, dass die derzeitige Technik eine sehr umständliche Benutzeroberfläche bietet, insbesondere wenn die Anzeige klein oder von geringer Qualität ist. Mit der aktuellen Technik kann es manchmal lange dauern, bis dem Benutzer Informationen in einem Menü angezeigt werden. Außerdem ist es schwierig, mit Bildschirm-Menüanzeigen in Wechselwirkung zu treten, insbesondere, wenn die Mausbetätigung oder Tastaturbedienung in abgedunkelten Räumen stattfinden muss. Schließlich befindet sich der Bildschirm der Benutzeroberfläche möglicherweise nicht an einem idealen Ort für alle Familienmitglieder und die Anzahl solcher Benutzeroberflächen kann beschränkt sein.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung nach Anspruch 1 stellt ein sprachaktiviertes System bereit, um mit der Unterstützung einer oder mehrerer elektronischer Tätigkeitsführungen Informationen zu filtern und durch komplexe Menüstrukturen zu navigieren. Das System kann dazu konfiguriert werden, dem Benutzer eine optimale Menge von Informationen für die anschließende Tätigkeitsauswahl vorzulegen.
Um die Einschränkungen herkömmlicher bildschirmbasierter Benutzeroberflächen zu überwinden, nutzt die vorliegende Erfindung Spracherkennung und Parsing natürlicher Sprache, um den Inhalt der elektronischen Tätigkeitsführung automatisch zu filtern, so dass dem Benutzer eine optimale Zahl fein abgestimmter Optionen zur anschließenden Auswahl über Sprache oder über herkömmliche Tastensteuerung oder über andere Mittel angezeigt werden können.
Die Erfindung bietet einem Benutzer eine schnelle und wesentlich weniger störende Benutzeroberfläche zum Auswählen einer bestimmten Tätigkeit. Häufig kann eine Anforderung in einem einzigen Satz abgeschlossen werden. In diesem Fall ist keine Anzeigevorrichtung notwendig oder es muss keine beobachtet werden, falls sie vorhanden ist.
Die Erfindung ermöglicht, dass jedes beliebige an das Netzwerk angeschlossene Gerät als Portal zum Bedienen dieses Geräts oder eines beliebigen anderen am Netzwerk angeschlossenen Geräts dient. Falls das Netzwerk über ein Gateway oder eine andere geeignete Verbindung zum Internet gekoppelt ist, ist das Internet ebenfalls über dieses Portal zugänglich.
Die Erfindung nutzt ein Spracherkennungssystem mit einem Parser zum Extrahieren von semantischen Informationen aus der eingegebenen Sprache eines Benutzers. Ein Datenspeicher speichert eine Repräsentation einer oder mehrerer elektronischer Tätigkeitsführungen. Diese Führungen sind in der Lage, das Gebiet des natürlichen Sprachdialogs auf eine bestimmte Vorrichtung, ein bestimmtes System oder einen bestimmten Diskurs zu begrenzen. Dadurch wird das System viel genauer beim Interpretieren der mit der eingegebenen Sprache des Benutzers assoziierten Bedeutung. Ein Dialogmodul für natürliche Sprache greift auf die elektronische(n) Tätigkeitsführung bzw. -führungen zu, interpretiert die Bedeutung der eingegebenen Sprache des Benutzers und liefert dem Netzwerk entsprechende Informationen, um spezifische Informationen von einem der an das Netzwerk angeschlossenen Geräte oder vom Internet, falls eine Verbindung dazu bereitgestellt ist, abzurufen. Das Dialogmodul für natürliche Sprache kann außerdem Steuerbefehle und Menünavigationsbefehle an über das Netzwerk kommunizierende Geräte bereitstellen. So liefert die Erfindung dem Benutzer einen natürlichen, sprechenden Modus zum Beschaffen von Informationen und zum Steuern von Geräten, Haushaltsgeräten, Computern und anderen Systemen im Haushalt.
Beispielsweise könnte der Benutzer, der kurz davor ist, einkaufen zu gehen, in ein zum Kühlschrank gehörendes Mikrofon sprechen und fragen: "Was kann ich heute Abend kochen?" Das Dialogmodul für natürliche Sprache würde auf die entsprechende elektronische Tätigkeitsführung zugreifen (die mit dem Kühlschrank assoziierte) und dann Informationen abrufen, die mögliche Abendessenmenüs mit den Artikeln im Kühlschrank assoziiert. Das System würde Vorschläge zu möglichen Menüs machen und den Benutzer auf Zutaten aufmerksam machen, die beschafft werden müssen. Der Benutzer könnte dann sagen, "Ich glaube, ich mache heute Abend Hühnerfrikassee. Bitte drucke eine Einkaufsliste." Das System würde dann feststellen, welche Artikel gegenwärtig nicht im Kühlschrank vorhanden sind und würde einen Druckauftrag zum Drucken an den Computer des Benutzers schicken.
In einer bevorzugten Ausführungsform hat jedes Haushaltsgerät oder andere Vorrichtung, die über das Netzwerk kommuniziert, eine zugehörige elektronische Tätigkeitsführung, die die Dialoggrammatik an ihr jeweiliges Gebiet anpasst. Das Dialogmodul für natürliche Sprache kann auf dem ganzen Netzwerk gemeinsam genutzt werden. Wenn der Benutzer in ein Mikrofon spricht, das an einem Haushaltsgerät oder einer Vorrichtung, das bzw. die über das Netzwerk kommuniziert, angebracht ist oder sich in dessen Nähe befindet, interpretiert das Dialogmodul für natürliche Sprache die Bedeutung der eingegebenen Sprache unter Verwendung der elektronischen Tätigkeitsführung und daher der spezifischen Grammatik, die für die eingegebene Sprache am passendsten ist. Das System wählt die beste Tätigkeitsführung, indem es die Grammatik identifiziert, die den höchsten semantischen Erkennungs-Score liefert. So könnte der Benutzer vor dem Kühlschrankportal stehen und das System auffordern, im Internet Vorratspreise nachzuschauen, um sie unter Verwendung des Text-zu-Sprache-Synthesizers des Systems über den Lautsprecher des Kühlschranks abzuspielen. Das Dialogmodul für natürliche Sprache würde Anfragen nach Vorratspreisen beispielsweise unter Verwendung einer elektronischen Tätigkeitsführung interpretieren, die mit dem mit dem Internet verbundenen Haushalts-Gateway assoziiert ist, obwohl der Benutzer die eingegebene Sprache über ein mit dem Kühlschrank assoziierten oder sich in dessen Nähe befindendes Mikrofon eingegeben hat.
Ein umfassenderes Verständnis der Erfindung sowie ihrer vielen Fähigkeiten, Aufgaben und Vorteile erhält man aus der übrigen Beschreibung und den beiliegenden Zeichnungen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Abbildung 1 ist ein Blockdiagramm einer gegenwärtig bevorzugten Ausführungsform der Erfindung, abgebildet zusammen mit einem Computernetzwerk und einem mit dem Internet verbundenen Haushalts-Gateway;
2 ist ein detaillierteres Blockdiagramm, das zeigt, wie der Spracherkenner und der Parser für natürliche Sprache mit dem Dialogmanager und den zugehörigen elektronischen Tätigkeitsführungen in Wechselwirkung stehen;
3 ist ein Blockdiagramm, das die Komponenten des Parsers für natürliche Sprache der gegenwärtig bevorzugten Ausführungsform zeigt; und
4 ist ein Blockdiagramm, das die Komponenten des lokalen Parsers der gegenwärtig bevorzugten Ausführungsform zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
In 1 ist das Haushalts-Tätigkeitssteuersystem als integraler Bestandteil eines Computernetzwerks 10 gezeigt, das einen Gateway 12 enthalten kann, der über eine geeignete Verbindung mit dem Internet in Verbindung steht. Wie zuvor angemerkt, kann das Netzwerk 10 mittels einer Reihe verschiedener Kommunikationstechniken realisiert werden, einschließlich verdrahtete und drahtlose Techniken und optische Techniken.
Zum Zweck der Veranschaulichung einiger der Fähigkeiten der Erfindung sind verschiedene Vorrichtungen als an das Netzwerk 10 angeschlossen dargestellt. Sie umfassen Audio/Video-Geräte 16, Haushaltsgeräte 18, Computer 20 und andere Systeme 22. Diesbezüglich sind gegenwärtig die meisten Haushalte nicht mit Audio/Video-Geräten und Haushaltsgeräten ausgestattet, die netzwerkfähig sind. Es wird jedoch erwartet, dass in Zukunft Audio/Video-Geräte und Haushaltsgeräte Netzwerkfähigkeit aufweisen, so dass diese Vorrichtungen als Komponenten unter der Steuerung des Haushalts-Gateways und des Netzwerksystems und außerdem als Portale für die natürliche Sprachkommunikation dienen können.
Der Gateway 12 kann eine Reihe verschiedener Formen annehmen – von einer einfachen Netzwerkknotenvorrichtung zu einem komplizierteren Knoten- und Schaltsystem mit Breitbandverbindung zum Internet 14. Falls erwünscht, kann der Gateway auch Komponenten zum Ausführen verschiedener Haushaltsautomatisierungsfunktionen umfassen, einschließlich Beleuchtungssteuerungsfunktionen, Brand- und Einbruchsalarmfunktionen, Heizungs- und Kühlungssteuerungsfunktionen, Telefonbeantwortungs- und -umschaltfunktionen und Dergleichen. Alternativ können diese Haushaltsautomatisierungsfunktionen von an das Netzwerk angeschlossenen Hilfsgeräten bereitgestellt werden, wie unter 24 dargestellt.
Vorzugsweise hat jedes der an das Netzwerk 10 angeschlossenen Vorrichtungen, wie die unter 16–24 in 1 dargestellten Vorrichtungen, unabhängige Verarbeitungsfähigkeiten und mindestens begrenzte Datenspeicherungsfähigkeit. Außerdem können diese Vorrichtungen integrierte Anzeigebildschirme, Benutzereingabe-Bedienungselemente wie Tastenbedienungselemente, Zeigevorrichtungs-Bedienungselemente, Tastaturen und Dergleichen umfassen. In der gegenwärtig bevorzugten Ausführungsform ist jede Vorrichtung dazu konfiguriert, unabhängig von ihrer Verbindung zum Netzwerk zu arbeiten. Wenn daher das Netzwerk aus irgendeinem Grund außer Betrieb gesetzt wird, üben die Vorrichtungen weiter ihre jeweiligen Funktionen aus. Wenn das Netzwerk danach wieder in Betrieb gesetzt wird, sind die Vorrichtungen vorzugsweise in der Lage, miteinander zu kommunizieren, um sich zu Bedingungen auf den neuesten Stand zu bringen, die während des Kommunikationsausfalls möglicherweise aufgezeichnet wurden.
Gemäß der vorliegenden Erfindung wird ein System für Spracherkennung und natürlichen Sprachdialog bereitgestellt, um es Benutzern zu ermöglichen, unter Verwendung natürlicher Sprache mit den verschiedenen, an das Netzwerk angeschlossenen Geräten und Systemen zu kommunizieren. Zum Zweck der Veranschaulichung wurde das System für Spracherkennung und natürlichen Sprachdialog unter 30 dargestellt. Das System 30 ist in 1 mit dem Netzwerk 10 verbunden gezeigt. Dies soll lediglich zeigen, dass die Verarbeitungsdienste für Spracherkennung und natürlichen Sprachdialog des Systems 30 für die über das Netzwerk 10 kommunizierenden Geräte, Haushaltsgeräte und anderen Systeme verfügbar gemacht werden. So könnte das System 30 physikalisch im Haushalts-Gateway 12 oder in einem beliebigen der anderen über das Netzwerk kommunizierenden Vorrichtungen, Haushaltsgeräte, Computer, Automatisierungssysteme und anderen Systeme realisiert werden. Außerdem oder alternativ könnte die vom System 30 bereitgestellte Funktionalität von Komponenten realisiert werden, die vom Internet 14 beschafft werden. Die Komponenten können beispielsweise auf Anforderung vom Internet 14 auf den Haushalts-Gateways 12 heruntergeladen werden.
Das System 30 für Spracherkennung und Verarbeitung natürlicher Sprache der bevorzugten Ausführungsform umfasst eines von mehreren Mikrofonen 32, über die die eingegebene Sprache bereitgestellt wird. Dabei kann es sich um rauschunterdrückende Mikrofone handeln, die physikalisch an verschiedenen Orten angeordnet sind, einschließlich in beliebigen der über das Netzwerk 10 kommunizierenden Komponenten. Die Mikrofoneingabe wird an ein Spracheingabe-Verarbeitungsmodul 34 geliefert, das die eingegebene Sprache digitalisiert und zur vom Spracherkenner 36 benötigten Form konvertiert. Da Haushaltsumgebungen typischerweise viel störende Hintergrundgeräusche haben, kann das Spracheingabe-Verarbeitungsmodul 34 Verarbeitungskomponenten zum Erkennen von Anfang und Ende der Sprache umfassen, wodurch Hintergrundgeräuschkomponenten herausgefiltert werden, die nicht einem menschlichen Sprachprofil entsprechen.
Der Spracherkenner 36 kann einen Satz von Sprachmodellen 38 umfassen, die im Voraus trainiert oder angepasst werden und vom Erkenner verwendet werden, um die gesprochenen Äußerungen zu Text oder Symbolform zu konvertieren. In einer Ausführungsform können die Sprachmodelle 38 vom Sprecher unabhängige kontinuierliche Sprachmodelle sein, die in der Lage sind, ein großes Vokabular von Wörtern und Phrasen zu Text oder Symbolform zu konvertieren. Falls gewünscht, kann das System fähig gemacht werden, die Sprachmodelle 38 basierend auf Trainings- oder Anpassungsäußerungen von den Sprechern, die das System nutzen werden, zu aktualisieren. In einem solchen Fall würden die Sprachmodelle zu sprecherabhängigen/angepassten Modellen modifiziert.
Die Ausgabe des Spracherkenners 36 wird dem Dialogmodul für natürliche Sprache 40 zugeführt. Aufbau und Funktion dieses Moduls werden nachfolgend ausführlicher beschrieben. Das Dialogmodul für natürliche Sprache arbeitet zusammen mit einem Satz elektronischer Tätigkeitsführungen, die kollektiv unter 42 und einzeln unter 44, 46, 48 und 50 gezeigt sind. Wie später ausführlicher erklärt wird, dienen diese elektronischen Tätigkeitsführungen dazu, das Gebiet des Dialogmoduls für natürliche Sprache zu begrenzen, so dass es semantischen Inhalt oder Bedeutung aus dem Text oder der symbolischen Repräsentation extrahieren kann, die vom Dialogmodul an den Spracherkenner 36 geliefert wurden. Es ist zwar möglich, eine globale elektronische Tätigkeitsführung aufzubauen, die Dialog mit einer Vielzahl verschiedener Komponenten, Vorrichtungen, Haushaltsgeräte, Systeme und Dergleichen handhaben kann, die gegenwärtig bevorzugte Ausführungsform verwendet jedoch getrennte elektronische Tätigkeitsführungen für diese jeweiligen Ausrüstungsgegenstände. Das Trennen der elektronischen Tätigkeitsführungen für jeden Ausrüstungsgegenstand macht die Programmierung und Fehlersuche der Führungen beim Entwickeln eines Systems einfacher.
Das Dialogmodul für natürliche Sprache kann mit einem Text-zu-Sprache-Synthesizer 52 gekoppelt werden, der seinerseits mit einem geeigneten Audiosystem mit Lautsprechern gekoppelt ist, wie schematisch unter 54 gezeigt. Der Text-zu-Sprache-Synthesizer liefert Spracheingabeaufforderungen als Teil des natürlichen Sprachdialogs mit dem Benutzer. Der Text-zu-Sprache-Synthesizer 52 kann außerdem Textinhalt in einer hörbaren synthetisierten Sprachform wiedergeben, so dass sich der Benutzer Informationen beschaffen kann, ohne auf einen Anzeigebildschirm schauen zu müssen. Das Dialogmodul für natürliche Sprache bestimmt den semantischen Inhalt oder die Bedeutung der vom Benutzer eingegebenen Sprache und liefert den entsprechenden, über das Netzwerk 10 kommunizierenden Vorrichtungen geeignete Befehle.
Eine gegenwärtig bevorzugte Ausführungsform des Systems für Erkennung und natürliche Sprache ist in 2 dargestellt. Eingegebene Sprache vom Benutzer wird über eine geeignete Audioschnittstelle und einen Digitalisierer an das Spracherkennermodul 110 geliefert. Die Ausgabe des Spracherkennermoduls 110 wird an einen Parser für natürliche Sprache 112 geliefert. Der Parser arbeitet zusammen mit einem Satz von Grammatiken 114, die die Semantik dessen definieren, das der Parser verstehen kann. Die Einzelheiten des Parsers werden nachfolgend ausführlicher diskutiert. Im Wesentlichen arbeitet der Parser jedoch auf einer zielorientierten Basis. Er identifiziert Schlüsselwörter und Phrasen aus der erkannten Sprache und verwendet diese erkannten Wörter und Phrasen, um Plätze in vordefinierten Vorlagen oder Rahmen zu füllen, die verschiedene zielorientierte Aufgaben repräsentieren.
Der Parser arbeitet außerdem zusammen mit einer semantischen Repräsentation der elektronischen Tätigkeitsführung (Electronic Activity Guide, EAG). In 2 ist die semantische Repräsentation unter 116 gespeichert. Die EAG wird in den Grammatiken 114 abgebildet. Der Parser für natürliche Sprache befragt also die unter 116 gespeicherte, semantische Repräsentation, um festzustellen, welche Optionen oder Antworten das System dem Benutzer vorlegt. Da das System es dem Benutzer erlaubt, mit sich ständig ändernden elektronischen Tätigkeitsführungsdaten in Wechselwirkung zu stehen, wird ein Mechanismus bereitgestellt, um den Inhalt der elektronischen Tätigkeitsführung in die Grammatiken des lokalen Parsers herunterzuladen oder zu aktualisieren. Diese Funktion wird vom Führungsabbildungsmodul 118 ausgeführt. Das Abbildungsmodul lädt die EAG herunter, die unter 120 schematisch als Baumstruktur dargestellt ist und bildet den Inhalt der Führung in den Grammatiken des örtlichen Parsers ab. Das Führungsabbildungsmodul hat a-priori-Kenntnis der Gesamtstruktur der elektronischen Tätigkeitsführung. Daher weiß das Abbildungsmodul beispielsweise, dass die mit einem Fernseher oder einem Videorecorder assoziierte elektronische Tätigkeitsführung getrennte Kategorien für Filme, Sport, Nachrichten, Wetter und so weiter hat. Das Abbildungsmodul nutzt diese a-priori-Kenntnis dann zum Abbilden der an den Zwischen- und Blattknoten der elektronischen Tätigkeitsführung gefundenen Informationen in den Grammatiken. Beispielsweise könnte die Filmen entsprechende semantische Repräsentation ihrerseits Plätze haben, die verschiedenen Arten von Filmen entsprechen, beispielsweise Komödien, Dramen, Science Fiction, sowie Plätze für den Namen des Regisseurs, für die Namen von Schauspielern und so weiter. Eine semantische Repräsentation des Inhalts des Kühlschranks könnte beispielsweise Plätze haben, die verschiedenen Arten von Lebensmittelartikeln entsprechen.
Von Zeit zu Zeit kann sich die Gesamtstruktur der elektronischen Tätigkeitsführung ändern. Das kann beispielsweise geschehen, wenn neue Komponenten zum Netzwerk hinzugefügt werden. Das System ist so aufgebaut, dass es solche Änderungen berücksichtigt, indem es einen Abbildungsmodul-Updater 122 enthält. Der Modul-Updater kann über das Netzwerk, über das Internet oder über eine beliebige andere Telekommunikationsverbindung mit Aktualisierungsinformationen versorgt werden. Wenn sich die Gesamtstruktur der elektronischen Tätigkeitsführung ändert, so dass das Programmführungs-Abbildungsmodul nicht mehr den gesamten Inhalt der Führung korrekt abbildet, wird das Abbildungsmodul vom Updater 122 aktualisiert. Der Update kann die Form zusätzlicher Plug-in-Module oder einer komplett neuen Version des Abbildungsmoduls haben.
Eine Aufgabe des Systems besteht darin, die Interaktion mit den über das Netzwerk kommunizierenden Systemen zu vereinfachen. Dazu filtert das System die in der elektronischen Tätigkeitsführung gefundenen Informationen basierend auf der Semantik der vom Benutzer gesprochenen Anforderung. Obwohl in manchen Fällen der Dialog mit dem Benutzer schnell eine einzelne Tätigkeit oder Information identifizieren kann, für die sich der Benutzer interessiert, wird häufiger eine Folge von Dialogen benötigt, um genau festzustellen, an welcher Tätigkeit der Benutzer interessiert ist.
Um dies zu erleichtern, nutzt die bevorzugte Ausführungsform einen Dialogmanager 124, der den Parser für natürliche Sprache 112 nutzt, um die Anforderungen des Benutzers zu etwas zu verfeinern, das aussagekräftig auf einem Bildschirm angezeigt oder über synthetisierte Sprache dargestellt werden kann. Der Dialogmanager hat vorab gespeicherte Informationen zu den Anzeigefähigkeiten des Systems, so dass er eine geeignete Informationsmenge festlegen kann, die dem Benutzer auf einem Bildschirm bereitgestellt werden kann. Beispielsweise ist ein Angebot von fünfzig Filmoptionen für den Benutzer als Antwort auf eine einzige Anforderung möglicherweise zu viel, um unter Berücksichtigung der Einschränkungen von Bildschirmauflösung und Schrifthöhe, ohne Weiteres auf dem Bildschirm angezeigt zu werden. Wenn andererseits nur zwei Programme als Antwort auf eine bestimmte Anforderung identifiziert werden, kann der Dialogmanager dem Benutzer zusätzliche Fragen stellen, um festzustellen, ob der Benutzer mehr Informationen sehen möchte.
Dank der Verwendung einer semantischen Repräsentation der elektronischen Tätigkeitsführung führt das System eine Filterung der in der elektronischen Programmführung 120 enthaltenen Informationen aus. Diese Funktion ist schematisch durch das Filtermodul 126 in 2 dargestellt.
Der Dialogmanager arbeitet zusammen mit einem Profildatenspeicher 128. Dieser Datenspeicher kann Benutzerprofilinformationen enthalten, wie beispielsweise Daten zu früheren Anfragen des Benutzers. Diese Informationen können beispielsweise verwendet werden, um den Dialogmanager und die zugehörige Filterungsfunktion beim Identifizieren von Informationen zu führen, für die sich der Benutzer möglicherweise interessiert bzw. nicht interessiert. Wenn der Benutzer beispielsweise am vorherigen Abend ein bestimmtes Programm angeschaut hat, würde diese Tatsache im Datenspeicher 128 gespeichert und der Dialogspeicher könnte dieses Programm dann in der Anzeige für einen darauf folgenden Abend unterdrücken. Falls der Benutzer regelmäßig Spinatauflauf als Mahlzeit ablehnt, unterdrückt der Dialogmanager diese Auswahl in Zukunft ebenso. Der Profildatenspeicher kann auch verwendet werden, um Benutzervorlieben dazu zu speichern, wie viele Informationen der Benutzer auf dem Bildschirm angezeigt oder durch synthetisierte Sprache bereitgestellt haben möchte. Die Profildaten für einen bestimmten Benutzer können unter Verwendung von Sprecherverifizierung oder Sprecheridentifizierung ausgewählt werden. Dazu speichert das Erkennungssystem eindeutige oder identifizierende Sprachcharakteristika jedes Benutzers. Wenn danach dieser Benutzer eine Spracheingabe bereitstellt, kann das System entweder die Identität des Sprechers feststellen, indem es eine Sprecheridentifikation basierend auf den Sprachcharakteristika durchführt oder es kann eine vom Sprecher bereitgestellte gegebene Identität verifizieren, indem es eine Sprecherverifizierung basierend auf den Sprachcharakteristika durchführt.
Der Parser für natürliche Sprache 112 und die semantische Repräsentation der elektronischen Tätigkeitsführung bilden zusammen das Herz der Sprachverständnissystems. Die Einzelheiten des bevorzugten Parsers für natürliche Sprache werden nun beschrieben.
3 zeigt Komponenten des Parsers für natürliche Sprache 112 detaillierter. Insbesondere umfasst das Sprachverständnismodul 228 einen lokalen Parser 260, um vorherbestimmte relevante aufgabenbezogene Fragmente zu identifizieren. Das Sprachverständnismoduls 228 umfasst außerdem einen globalen Parser 262, um die Gesamtsemantik der Anforderung des Benutzers zu extrahieren.
Der lokale Parser 260 nutzt in der bevorzugten Ausführungsform kleine und mehrfache Grammatiken zusammen mit mehreren Durchläufen und einem eindeutigen Scoring-Mechanismus, um Parsenhypothesen bereitzustellen. Beispielsweise erkennt der neuartige lokale Parser 260 gemäß diesem Vorgehen Phrasen wie Datumsangaben, Namen von Personen, Filmkategorien, Lebensmittelkategorien und Dergleichen. Wenn ein Sprecher zum Heimunterhaltungssystem sagt: "Nehme mir eine Komödie auf, in der Mel Brooks eine Hauptrolle spielt und die vor dem 23. Januar gezeigt wird", erkennt der lokale Parser: "Komödie" als Filmkategorie; "23. Januar" als Datum; und "Mel Brooks" als Schauspieler. Der globale Parser fügt diese Artikel zusammen (Film, Kategorie, Datum usw.) und erkennt, dass der Sprecher einen Film mit gewissen Randbedingungen aufnehmen möchte.
Das Sprachverständnismodul 228 umfasst die Wissensdatenbank 263, die die Semantik eines Gebiets codiert (d.h. das zu erreichende Ziel). In diesem Sinn ist die Wissensdatenbank 263 vorzugsweise eine gebietsspezifische Datenbank, wie unter Bezugszeichen 265 dargestellt und wird vom Dialogmanager 230 verwendet, um festzustellen, ob eine bestimmte Tätigkeit im Zusammenhang mit dem Erreichen eines vorherbestimmten Ziels möglich ist.
Die bevorzugte Ausführungsform codiert die Semantik über eine Rahmendatenstruktur 264. Die Rahmendatenstruktur 264 enthält leere Plätze 266, die gefüllt werden, wenn die semantische Interpretation des globalen Parsers 262 dem Rahmen entspricht. Beispielsweise umfasst eine Rahmendatenstruktur (deren Gebiet Tunerbefehle ist) einen leeren Platz zum Angeben des vom Zuschauer angeforderten Kanals für eine Zeitperiode. Wenn der Zuschauer den Kanal angegeben hat, wird der leere Platz mit dieser Information gefüllt. Falls dieser spezielle Rahmen jedoch gefüllt werden muss, nachdem der Zuschauer anfänglich seine Anforderung angegeben hat, weist der Dialogmanager 230 das Antwortmodul 234 an, den Zuschauer aufzufordern, einen gewünschten Kanal anzugeben. Das Antwortmodul 234 kann einen Text-zu-Sprache-Synthesizer umfassen.
Die Rahmendatenstruktur 264 umfasst vorzugsweise mehrere Rahmen, die ihrerseits mehrere Plätze haben. Im Fernseher-Abstimmungsbeispiel kann ein Rahmen Plätze haben, die für Attribute eines Films, Regisseurs und Filmtyps bestimmt sind. Ein anderer Rahmen kann Plätze haben, die für mit dem Ort an dem der Film läuft, den Kanal usw. assoziierte Attribute bestimmt sind.
Die folgende Bezugsquelle diskutiert globale Parser und Rahmen: R. Kuhn und R. D. Mori, Spoken Dialogues with Computers (Gesprochene Dialoge mit Computern) (Kapitel 14: Sentence Interpretation (Satzinterpretation)), Academic Press, Boston (1998).
Der Dialogmanager 230 nutzt die Dialoghistorien-Datendatei 267 zur Unterstützung beim Füllen von leeren Plätzen, bevor er den Sprecher um die Information bittet. Die Dialoghistorien-Datendatei 267 enthält ein Protokoll des Gesprächs, das über die Vorrichtung der vorliegenden Erfindung stattgefunden hat. Beispielsweise gibt der Sprecher an, dass er bzw. sie heute vier Personen beim Abendessen haben wird. Der Dialogmanager 230 würde in der Dialoghistorien-Datendatei 267 ein Protokoll der Zahl von Personen speichern. Wenn danach der Sprecher äußert: "Ich möchte heute Abend auf dem Grill kochen", prüft der Dialogmanager 230 die mit dem Kühlschrank assoziierte Datenbank, um festzustellen, welche Artikel vorhanden sind. Unter Verwendung der Dialoghistorien-Datendatei 267 empfiehlt der Dialogmanager 230 möglicherweise "Schweinskoteletts", da vier Schweinskoteletts vorhanden sind. Basierend auf der Dialoghistorie würde der Dialogmanager nicht Huhn empfehlen, wenn nur eine Portion vorhanden wäre. Wenn eine ausreichende Zahl von Plätzen gefüllt wurde, bittet die vorliegende Erfindung den Sprecher, die Menüauswahl zu überprüfen und zu bestätigen. Wenn also der Dialogmanager 230 durch die Verwendung der Dialoghistorien-Datendatei 267 irgendwelche Annahmen getroffen hat, die sich als falsch herausstelle, kann der Sprecher die Annahme korrigieren.
Der Parser für natürliche Sprache 112 analysiert und extrahiert semantisch wichtige und aussagekräftige Themen aus einem lose strukturierten Text aus natürlicher Sprache, der als Ausgabe eines automatischen Spracherkennungssystems (ASR) erzeugt worden sein kann, das von einem Dialog- oder Sprachverständnissystem verwendet wird. Der Parser für natürliche Sprache 112 übersetzt die Texteingabe aus natürlicher Sprache in eine neue Repräsentation, indem er gut strukturierte, Themeninformationen und Daten enthaltende Tags erzeugt und jeden Tag mit den Segmenten des eingegebenen Texts assoziiert, der die getaggten Informationen enthält.
Außerdem können Tags in anderen Formen erzeugt werden, wie beispielsweise einer getrennten Liste oder einem semantischen Rahmen.
Ein Merkmal des Parsers für natürliche Sprache 112 ist Robustheit, da die Eingabe aus den folgenden Gründen grammatikalisch inkorrekte englische Sätze enthalten kann: Die Eingabe an den Erkenner ist in formlosem Dialogstil, natürliche Sprache kann unvollständige Sätze, unvollständige Phrasen und vom Spracherkenner eingefügte, ausgelassene oder falsch erkannte Fehler enthalten, selbst wenn die Spracheingabe als korrekt betrachtet wird. Der Parser für natürliche Sprache 112 handhabt alle Arten von Eingabe robust und extrahiert so viele Informationen wie möglich. Obwohl hier die englische Sprache veranschaulicht wird, kann die Erfindung für jede beliebige Sprache realisiert werden.
4 zeigt die verschiedenen Komponenten des neuartigen lokalen Parsers 260 des Parsers für natürliche Sprache 112. Der Parser für natürliche Sprache 112 nutzt vorzugsweise verallgemeinerte Parsing-Techniken in einem Vorgehen mit mehreren Durchläufen als Festpunktberechnung. Jedes Thema wird als kontextsensitive LR-Grammatik (Links-rechts- und Rechts-Ableitung) beschrieben, die Mehrdeutigkeiten zulässt. Die folgenden Bezugsquellen behandeln kontextsensitive LR-Grammatiken: A. Aho und J. D. Ullman, Principles of Compiler Design (Grundlagen der Compiler-Auslegung), Addison Wesley Publishing Co., Reading, Massachusetts (1977); und N. Tomita, Generalized LR Parsing (Verallgemeinertes LR-Parsing), Kluwer Academic Publishers, Boston, Massachusetts (1991).
In jedem Durchlauf der Berechnung wird ein verallgemeinerter Parsingalgorithmus verwendet, um vorzugsweise alle möglichen (sowohl vollständigen als auch unvollständigen) Parsebäume unabhängig für jedes angesteuerte Thema zu generieren. Jeder Durchlauf generiert potenziell mehrere alternative Parsebäume, wobei jeder Parsebaum eine möglicherweise verschiedene Interpretation eines bestimmten Themas darstellt. Die mehreren Durchgänge entlang vorzugsweise parallelen und unabhängigen Pfaden führen zu einer wesentlichen Eliminierung von Mehrdeutigkeiten und Überlappungen unter verschiedenen Themen. Der verallgemeinerte Parsingalgorithmus ist ein systematisches Vorgehen, um alle möglichen Parsebäume zu treffen, so dass die (N)-besten Kandidaten unter Verwendung der im System vorhandenen Kontextinformationen ausgewählt werden.
Das lokale Parsingsystem 260 wird in drei Stufen ausgeführt: lexikalische Analyse 320; parallele Parsewaldgenerierung für jedes Thema (beispielsweise Generatoren 330 und 332) und Analyse und Synthese von geparsten Komponenten, wie allgemein unter Bezugszeichen 334 gezeigt.
Lexikalische Analyse:
Ein Sprecher äußert eine Phrase, die von einem automatischen Spracherkenner 317 erkannt wird, der den Eingabesatz 318 generiert. Die lexikalische Analysestufe 320 identifiziert und generiert unter Verwendung von lexikalischen Filtern 326 und 328 Tags für die Themen (die keine ausgedehnten Grammatiken benötigen) im Eingabesatz 318. Diese umfassen, beispielsweise in der Heimunterhaltungsanwendung, Filmnamen, Filmkategorie, Produzenten, Namen von Schauspielern und Schauspielerinnen. Ein Scan nach regulären Ausdrücken im Eingabesatz 318 unter Anwendung der in den erwähnten beispielhaften Tags enthaltenen Schlüsselwörtern ist auf dieser Stufe typischerweise ausreichend. Außerdem wird auf dieser Stufe das Tagging von Wörtern im Eingabesatz durchgeführt, die nicht Teil des Lexikons der jeweiligen Grammatik sind. Diese Wörter werden mit einem X-Tag gekennzeichnet, so dass solche Störwörter durch den Buchstaben "X" ersetzt werden.
Parallele Parsewaldgenerierung:
Der Parser 112 verwendet eine anspruchsvolle Parsingstrategie, um jedes Thema getrennt zu beschreiben und zu parsen und generiert Tags und bildet sie auf dem Eingabestrom ab. Aufgrund der Eigenschaften des unstrukturierten Eingabetexts 318 akzeptiert jeder einzelne Themenparser vorzugsweise eine möglichst große Sprache, ignoriert alle außer den wichtigen Wörtern und behandelt Einfüge- und Löschfehler. Beim Parsing jedes Themas werden unter Verwendung einer Metaebenen-Spezifikationssprache kontextsensitive Grammatikregeln entwickelt, ähnlich wie die beim LR-Parsing verwendeten. Beispiele von Grammatiken sind Grammatik A 340 und Grammatik B 342. Unter Anwendung des Vorgehens der vorliegenden Erfindung werden die Themengrammatiken 340 und 342 so beschrieben, als wären sie eine Grammatik vom Typ LR mit Redundanzen und ohne Verschiebungen zu eliminieren und Konflikte zu verringern. Das Ergebnis des Parsing eines Eingabesatzes ist alle möglichen auf den Grammatikspezifikationen basierende Parsen.
Die Generatoren 330 und 332 generieren die Parsewälder 350 und 352 für ihre Themen. Die Tag-Generierung erfolgt durch Synthetisieren von tatsächlichen Informationen, die im beim Parsing erhaltenen Parsebaum gefunden werden. Die Tag-Generierung erfolgt über die Tag- und Score-Generatoren 360 und 362, die jeweils die Tags 364 bzw. 366 generieren. Jeder identifizierte Tag trägt außerdem Informationen dazu, welche Menge von Eingabewörtern im Eingabesatz vom Tag abgedeckt werden. Anschließend ersetzt der Tag die von ihm abgedeckte Menge. In der bevorzugten Ausführungsform werden die Kontextinformationen 367 zur Tag- und Score-Generierung genutzt, beispielsweise durch die Generatoren 360 und 362. Die Kontextinformationen 367 werden in der Scoring-Heuristik genutzt, um Gewichte anzupassen, die mit einer heuristischen Scoring-Faktortechnik assoziiert sind, die nachfolgend beschrieben wird. Die Kontextinformationen 367 umfassen vorzugsweise den Wortvertrauensvektor 368 und Dialogkontextgewichte 369. Es ist jedoch zu beachten, dass der Parser 112 nicht darauf beschränkt ist, den Wortvertrauensvektor 368 und die Dialogkontextgewichte 369 zu verwenden, sondern auch die Verwendung von einem unter Ausschluss des anderen sowie die Nicht-Verwendung der Kontextinformationen 367 umfasst.
Der automatische Spracherkennungs-Prozessblock 317 generiert den Wortvertrauensvektor 368, der angibt, wie gut die Wörter im Eingabesatz 318 erkannt wurden. Der Dialogmanager 230 generiert Dialogkontextgewichte, 369, indem er den Zustand des Dialogs bestimmt. Beispielsweise befragt ein Dialogmanager 230 einen Benutzer zu einem bestimmten Thema, beispielsweise, welche Sendezeit vorzuziehen ist. Aufgrund dieser Anfrage bestimmt der Dialogmanager 230, dass der Zustand des Dialogs zeitorientiert ist. Der Dialogmanager 230 liefert Dialogkontextgewichte 369, um den entsprechenden Prozessen mitzuteilen, dass sie die erkannten zeitorientierten Wörter stärker gewichten sollen.
Synthese von Tap-Komponenten:
Der Themenerkennungsparser der vorherigen Stufe generiert eine erhebliche Menge von Informationen, die analysiert und zusammengeführt werden müssen, um die endgültige Ausgabe des lokalen Parsers zu bilden. Der Parser 112 ist vorzugsweise so "aggressiv" wie möglich beim Erkennen jedes Themas, was zur Generierung von mehreren Tag-Kandidaten führt. Außerdem ist es, in Anwesenheit von Zahlen oder gewissen Schlüsselwörtern, wie beispielsweise "zwischen", "vor", "und", "oder", "um ungefähr" usw. und insbesondere wenn diese Wörter durch Erkennungsfehler eingeführt oder ausgelassen wurden, möglich, viele alternative Tag-Kandidaten zu erstellen. Beispielsweise könnte ein Eingabesatz Einfüge- oder Löschfehler haben. Die Zusammenführungsphase bestimmt, welche Tags eine aussagekräftigere Interpretation der Eingabe bilden. Der Parser 112 definiert Heuristiken und nimmt unter Verwendung eines Auswahlprozesses für die N-besten Kandidaten eine Auswahl basierend auf ihnen vor. Jeder generierte Tag entspricht einer Menge von Wörtern in der Eingabewortfolge, die Deckungsmenge des Tags genannt wird.
Es wird eine Heuristik verwendet, die die Deckungsmengen der zum Generieren eines Scores verwendeten Tags berücksichtigt. Der Score hängt grob ab von der Größe der Deckungsmenge, den Größen in der Zahl der Wörter der Lücken in den abgedeckten Objekten und den der Anwesenheit gewisser Schlüsselwörter zugeordneten Gewichten. In der bevorzugten Ausführungsform werden Informationen zum durch ASR gewonnenen Vertrauensvektor und zum Dialogkontext verwendet, um den Tags Prioritäten zuzuordnen. Beispielsweise entfernt die Anwendung von Kanal-Tags-Parsing zuerst potenziell kanalbezogene Zahlen, die im Eingabestrom leichter eindeutig zu identifizieren sind und hinterlässt weniger Zahlen, die Mehrdeutigkeiten mit anderen Tags erzeugen können. Vorzugsweise werden Dialogkontextinformationen verwendet, um die Prioritäten anzupassen.
Auswahl von N-besten Kandidaten
Am Ende jedes Durchlaufs wählt ein N-beste-Prozessor 370 die N-besten Kandidaten basierend auf den mit den Tags assoziierten Scores und generiert die Themen-Tags, die jeweils die im entsprechenden Parsebaum gefundenen Informationen repräsentieren. Nachdem Themen auf diese Weise erkannt wurden, können die entsprechenden Wörter in der Eingabe durch die Tag-Informationen ersetzt werden. Diese Substitutionstransformation eliminiert die entsprechenden Wörter aus dem aktuellen Eingabetext. Die Ausgabe 380 jedes Durchgangs wird als neue Eingabe an den nächsten Durchgang zurückgeleitet, da die Substitutionen beim Eliminieren gewisser Mehrdeutigkeiten unter konkurrierenden Grammatiken helfen können oder helfen können, durch Herausfiltern überlappender Symbole bessere Parsebäume zu generieren.
Die Berechnung endet, wenn im letzten Durchlauf keine zusätzlichen Tags generiert werden. Die Ausgabe des letzten Durchlaufs wird zur Ausgabe des lokalen Parsers an den globalen Parser 262. Da jede Phase nur die Zahl der Wörter in ihrer Eingabe verringern kann und die Länge des Eingabetexts endlich ist, ist die Zahl der Durchläufe in der Festpunktberechnung von der Größe ihrer Eingabe linear beschränkt.
Die folgenden neuartigen Scoring-Faktoren werden verwendet, um die alternativen Parsebäume basierend auf den folgenden Attributen eines Parsebaums in eine Rangordnung zu ordnen:

• Zahl der Endsymbole.
• Zahl der Nicht-Endsymbole.
• Tiefe des Parsebaums.
• Größe der Lücken in den Endsymbolen.
• Mit jedem Endsymbol assoziierte ASR-Vertrauensmaße.
• Mit jedem Endsymbol und jedem Nicht-Endsymbol assoziierte, nach Kontext anpassbare Gewichte.

Jeder Pfad entspricht vorzugsweise einem eigenen Thema, dass unabhängig entwickelt werden kann und arbeitet mit geringem Rechenaufwand an einer kleinen Datenmenge. Die Architektur des Parsers 112 ist flexibel und modular, so dass das Integrieren zusätzlicher Pfade und Grammatiken für neue Themen oder das Ändern von Heuristiken für bestimmte Themen einfach sind. Das ermöglicht außerdem die Entwicklung von wiederverwendbaren Komponenten, die leicht von verschiedenen Systemen gemeinsam genutzt werden können.
Aus dem Vorangehenden wird man einsehen, dass die vorliegende Erfindung eine benutzerfreundliche und schnelle Möglichkeit für die Interaktion mit der ansonsten komplexen elektronischen Programmführung bereitstellt. Durch Unterhaltung in natürlicher Sprache kann der Benutzer das System bitten, Informationen in der Programmführung zu finden und die ausgegebenen Informationen werden in leicht verständlichen Stücken angezeigt. Das Ergebnis ist eine gemischte Informationspräsentation, die die Einfachheit des Dialogs in natürlicher Sprache mit der unkomplizierten Darstellung von Bildschirmanzeigen bietet. Obwohl die Erfindung in ihrer gegenwärtig bevorzugten Form beschrieben wurde, ist zu beachten, dass die Erfindung abgewandelt werden kann, ohne vom Umfang der Erfindung gemäß den angehängten Patentansprüchen abzuweichen.

Claims

Informationsfilterungssystem für ein Haushaltsnetzwerk mit einer Vielzahl von darin kommunizierenden Haushaltskomponenten, wobei das Filterungssystem Folgendes umfasst: einen Spracherkenner mit einem Parser zum Extrahieren von semantischen Informationen aus der von einem Benutzer eingegebenen Sprache, wobei der Parser zusammen mit einer gewählten elektronischen Tätigkeitsfühnung arbeitet; einen Datenspeicher, der eine Vielzahl von elektronischen Tätigkeitsführungen enthält, die der Vielzahl von Haushaltskomponenten entsprechen, basierend auf den semantischen Informationen und zum Bereitstellen gefilterter, mit den Haushaltskomponenten assoziierten Informationen; und ein Mittel zum Wählen der besten elektronischen Tätigkeitsführung durch Identifizieren der Grammatik, die den höchsten semantischen Erkennungs-Score liefert.
System nach Anspruch 1, wobei die Haushaltskomponenten aus der aus Audio/Video-Geräten, Haushaltsgeräten, Computern, Haushaltsautomatisierungssystemen, Brandalarmsystemen, Einbruchalarmsystemen, Telefonsystemen, Gegensprechsystemen, Gateway-Systemen und Internetzugriffssystemen bestehenden Gruppe ausgewählt sind.
System nach Anspruch 1, wobei ein Dialogmanager dem Benutzer die gefilterten Informationen in hörbarer oder sichtbarer Form bereitstellt.
System nach Anspruch 1, weiter umfassend ein an den Datenspeicher gekoppeltes Abbildungsmodul, um den Inhalt des Datenspeichers ab einer Quelle für elektronische Tätigkeitsführungsinformationen zu aktualisieren.
System nach Anspruch 1, weiter umfassend ein Haushalts-Gateway-Modul, dass das Netzwerk an das Internet koppelt und wobei das Filterungssystem über das Internet erhaltene Informationen basierend auf den semantischen Informationen filtert.
System nach Anspruch 1, wobei eine Haushaltskomponente ein zugehöriges Mikrofon umfasst, über das der Benutzer Eingabesprache bereitstellt.
System nach Anspruch 1, wobei eine Haushaltskomponente eine zugehörige Anzeige umfasst, mittels derer der Dialogmanager die gefilterten Informationen bereitstellt.
System nach Anspruch 1, wobei ein Dialogmanager einen Sprachsynthesizer umfasst, um dem Benutzer Informationen als synthetisierte Sprache bereitzustellen.
System nach Anspruch 1, wobei ein Dialogmanager einen Sprachsynthesizer umfasst, um dem Benutzer die gefilterten Informationen als synthetisierte Sprache bereitzustellen.
System nach Anspruch 1, wobei der Parser ein zielorientierter Parser ist, der eine Vielzahl von zielorientierten Rahmen mit Plätzen hat, die in der elektronischen Tätigkeitsführung repräsentierten Informationen entsprechen.
System nach Anspruch 1, wobei der Parser ein Parser für natürliche Sprache ist mit einer Menge vordefinierter Grammatiken, die den in der elektronischen Tätigkeitsführung repräsentierten Informationen entsprechen.
System nach Anspruch 4, wobei das Abbildungsmodul ein Abbildungsmodul-Aktualisierungssystem umfasst, um die Funktionalität des Abbildungsmodul basierend auf von einem entfernten Ort erhaltenen Informationen zu aktualisieren.
System nach Anspruch 1, wobei ein Dialogmanager einen Benutzerprofil-Datenspeicher umfasst, um eine Repräsentation der vergangenen Nutzung des Filterungssystems eines Benutzers zu speichern und wobei der Dialogmanager den Profildatenspeicher verwendet, um die gespeicherte elektronische Tätigkeitsführungsrepräsentation weiter zu filtern.
System nach Anspruch 1, weiter umfassend einen Benutzerprofil-Datenspeicher und ein Sprecherverifizierungssystem, um auf den Benutzerprofil-Datenspeicher zuzugreifen.
System nach Anspruch 1, weiter umfassend einen Benutzerprofil-Datenspeicher und ein Sprecheridentifizierungssystem, um auf den Benutzerprofil-Datenspeicher zuzugreifen.