DE69922872T2

DE69922872T2 - Automatischer Hotelportier mit Spracherkennung

Info

Publication number: DE69922872T2
Application number: DE69922872T
Authority: DE
Inventors: Jean-Claude Santa Barbara Junqua; Matteo Santa Barbara Contolini
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-04-30
Filing date: 1999-04-26
Publication date: 2005-12-29
Anticipated expiration: 2019-04-27
Also published as: US6314165B1; JP2000032140A; EP0953967B1; EP0953967A3; DE69922872D1; CN1246023A; EP0953967A2; TW424221B; KR100574768B1; CN1116770C; JP3135233B2; KR19990083596A

Description

Die vorliegende Erfindung bezieht sich im Allgemeinen auf ein automatisches Hotelbetreuungssystem und insbesondere auf ein automatisches Hotelbetreuungssystem, das ein Lexikontrainingssystem verwendet, um automatisch einen Spracherkenner zu trainieren und außerdem, um eine Hotelgastdatenbank zu verwalten.
Automatische Betreuungssysteme werden im Allgemeinen in Office-typischen Umgebungen implementiert. Im Allgemeinen arbeiten die automatischen Betreuungssysteme mit einem phonetisch basierten Erkenner, um Rufweiterleitungsfunktionen in Verbindung mit einer privaten Nebenstellenanlage (PBX) zu realisieren. Ein Beispiel eines bekannten automatischen Antwortsystems ist in der EP-A-0568979 offenbart.
Die WO-A-9926232 bezieht sich auf ein Gerät und ein Verfahren, um einen sprachbasierten Wählvorgang für Telekomunikationsendgeräte zu ermöglichen. Akustisch eingegebene Namen werden zu einem Spracherkennungssystem weitergeleitet, um dort mit vorbestimmten Wortmodellen verglichen zu werden, die durch einen Graphem-Phonem-Konverter erzeugt wurden. Sobald eine Erkennung erfolgt, wird eine Telekomunikationsverbindung automatisch herbeigeführt, mit einer Telefonnummer, die dem Namen entspricht.
In Spracherkennungsanwendungen sind phonetische Transkriptionen für jedes Wort im Wörterbuch notwendig, um die Modelle für die Spracherkenner vor deren Benutzung aufzubauen. Traditionell werden phonetische Transkriptionen manuell durch einen Lexikographen erzeugt, der genaue Kenntnisse von Nuancen der phonetischen Aussprache einer entsprechenden Sprache, die berücksichtigt werden soll, besitzt. Die Entwicklung einer guten phonetischen Transkription für jedes Wort in einem Wörterbuch ist zeitintensiv und bedarf einer sehr hohen Kenntnis und Fähigkeit. Weiterhin ergibt sich, dass ein Wörterbuch, das in einem automatischen Betreuungssystem verwendet wird, hinsichtlich der Berücksichtigung von Nachnamen nicht vollständig sein kann. Auch wenn phonetische Transkriptionen für jeden Nachnamen in einer relativ statischen Office-typischen Umgebung für jede Person erzeugt werden können, ist dieser Ansatz nicht verwendbar für die Implementierung eines automatischen Betreuungssystems in einem sich immer wieder verändernden Anwendungsbereich, so wie zum Beispiel bei Nachnamen in einer Hotelgastdatenbank.
Eine Vielzahl der Arbeitskräfte und der spezialisierten Ausarbeitung zur Erzeugung eines phonetischen Transkriptionssystems sind überflüssig, wenn ein Lexikontrainingssystem verwendet wird, um automatisch die Modelle für einen Spracherkenner eines automatischen Betreuungssystems zu bilden.
Das Lexikontrainingssystem der vorliegenden Erfindung erweitert bekannte Erkennungssysteme dahingehend, dass Wörter erkannt werden, wie Nachnamen oder geographische Regionen, die momentan nicht in existierenden Wörterbüchern zu finden sind. Ein robuster und zuverlässiger Phonetisierer, der eine Vielzahl von Aussprachen von einer geschriebenen Form eines Namens erzeugt, ist ein wichtiger Aspekt dieses Lexikontrainingssystems. Sobald die Aussprache eines Nachnamens bekannt ist, ist es möglich, ein sprecherunabhängiges Sprachmodell zu verwenden, um einen Spracherkenner automatisch zu trainieren und/oder zu aktualisieren, der in einem automatischen Betreuungssystem verwendet wird.
Entsprechend verwendet das automatische Betreuungssystem der vorliegenden Erfindung, wie es in den Ansprüchen 1 bis 11 verwendet wird, die oben genannten Prinzipien und ist somit ideal geeignet für die Verwendung in einem Hotelregistrations- und Telefonsystem. Das automatische Hotelbetreuungssystem stellt Rufweiterleitungsfunktionen mit weiteren Leistungen für Hotelgäste zur Verfügung, ohne dass es mit einem Hotelvermittler verbunden werden muss. Ein Hotelregistrierungssystem empfängt und speichert die buchstabierten Namen der Hotelgäste und weist jedem Gast einen zugeordneten Telefonnebenanschluss zu. Ein Lexikontrainingssystem ist mit dem Hotelregistrierungssystem zur Erzeugung der Aussprache von jedem buchstabierten Namen verbunden, dies erfolgt durch die Konvertierung der Zeichen, die diesen Namen bestimmen, in Wort-Phonem Daten. Diese Wort-Phonem Daten sind wiederum in einem Lexikon gespeichert, das durch das Spracherkennungssystem verwendet wird. Ein automatischer Betreuer ist mit dem Spracherkennungssystem verbunden, um den gesprochenen Namen eines Hotelgastes, der über einen der Telefonnebenanschlüsse eingegeben wurde, in einen vordefinierten Hotelgastnamen umzuwandeln, um diesen dazu zu verwenden, um den zugeordneten Telefonnebenanschluss vom Hotelregistrierungssystem zu erlangen. Daraufhin veranlasst das automatische Betreuungssystem die Telefonanlage einen Ruf abzugeben mit der Telefonextension, die verlangt wurde, als Antwort auf die Eingabe eines gesprochenen Namens über eine der anderen Telefonextensionen.
Die vorliegende Erfindung wird weiter unten mit Bezug zu beispielhaften Ausführungsformen und den beigefügten Zeichnungen beschrieben, wobei:
1 ein Blockdiagramm einer bevorzugten Ausführungsform eines automatischen Hotelbetreuungssystems der vorliegenden Erfindung ist;
2 ein Diagramm ist, das die Komponenten des Lexikontrainingssystems, das in dem automatischen Hotelbetreuunssystem der vorliegenden Erfindung verwendet wird, zeigt;
3 ein Blockdiagramm ist, das die Komponente des Phonetisierers, der in dem automatischen Hotelbetreuungssystem der vorliegenden Erfindung verwendet wird, zeigt;
4 ein Entscheidungsbaum ist, der einen ausschließlich buchstabenorientierten Baum zeigt, der durch den Phonetisierer verwendet wird; und
5 zeigt einen Entscheidungsbaum, der einen gemischten Baum zeigt, der durch den Phonetisierer verwendet wird.
Die folgende Beschreibung der vorliegenden Erfindung ist im Wesentlichen beispielhaft und es wird in keiner Weise beabsichtigt, die Erfindung oder ihre Verwendung dahingehend zu limitieren. Vielmehr hat die folgende Beschreibung, die sich zwar auf ein automatisches Hotelbetreuungssystem bezieht, das ein Lexikontrainingssystem verwendet, um automatisch einen Spracherkenner zu trainieren, die Absicht, einen Fachmann auf diesem Gebiet dahingehend zu unterrichten, dass er ein automatisches Betreuungssystem für eine Vielzahl von Sprachbearbeitungsanwendungen verwenden kann.
Ein automatisches Hotelbetreuungssystem 10 wird in 1 beschrieben, um Hotelgästen zusätzliche Dienstleistungen durch eine Spracherkennung bereitzustellen, ohne dass eine Person eine Vermittlung vornimmt. Sobald ein Hotelgast eincheckt, gibt er oder sie typischerweise ihren Namen, ihre Adresse, Auscheckdatum und andere Registrierungsinformationen dem Hotelempfang an. Um das automatische Hotelbetreuungssystem 10 zu unterstützen können zusätzliche Informationen wie die Nationalität oder der Dialekt, die vom Hotelgast preisgegeben wurden, angegeben werden. Diese Informationen werden genauso wie die zugeordnete Hotelgastnummer durch ein konventionelles Hotelregistrierungssystem 14, durch einen Computer 12 oder andere Benutzerinterfaces aufgenommen und in einer Hotelgastdatenbank 20 abgelegt.
Sobald die Gastinformationen aufgenommen wurden, transformiert ein Lexikontrainingssystem 30 automatisch die geschriebene Form des Gastnamens in eine oder mehrere phonetische Aussprachen des Namens. Unter Verwendung der bekannten Aussprache des Namens des Gastes ist es dann für das Lexikontrainingssystem 30 möglich ein sprecherunabhängiges Spracherkennungsmodell aufzubauen, das durch einen Spracherkenner 22 verwendet wird. Dieses Spracherkennungsmodell wird dann in einem Lexikon 32 gespeichert, auf das dann durch den Spracherkenner 22 zugegriffen wird. Die spezifische phonetische Aussprache des Namens jedes Hotelgastes kann automatisch im Lexikon 32 aktualisiert werden, sobald der Gast eincheckt oder aus dem Hotel auscheckt.
Durch die Verwendung der Spracherkennung kann eine automatische Vermittlung 50 eine Sprachwahl durch den Namen bereitstellen, wodurch eine Verbindung zu einem anderen Hotelgastzimmer erfolgen kann, ohne dass dessen Zimmernummer bekannt ist. Ein Ruf der durch ein Hoteltelefon 16 über die Telefonanlage des Hotels erfolgt (in der Regel eine PBX) 18 wird durch eine automatische Vermittlung 50 in Empfang genommen, die wiederum die Rufweiterleitungsfunktion zur Verfügung stellt. Der gesprochene Name eines Hotelgastes wird durch den Spracherkenner 22 erkannt, der das aktualisierte Lexikon 32 verwendet. Die automatische Vermittlung 50 bildet den gesprochenen Namen auf die beigefügte Durchwahl ab, durch die Verwendung des Hotelgastnamens, um die Telefondurchwahl von der Hotelgastdatenbank 20 zu erlangen. Abschließend veranlasst die automatische Vermittlung 50 das Vermittlungssystem 18 die erlangte Telefondurchwahl anzurufen und hierdurch den verlangten Ruf sauber weiterzuleiten. Für den Fachmann auf diesem Gebiet liegt es nahe, dass in dem Falle, dass die phonetisch basierte Spracherkennung zu keinem Ergebnis gelangt, die automatische Vermittlung der vorliegenden Verbindung dann in Verbindung mit einem Erkenner für buchstabierte Namen verbindet oder mit ei nem konventionellen Assistentenmodul für Directories bzw. Namenseinträge. Eine letzte Möglichkeit besteht darin, dass die automatische Vermittlung den Verbindungswunsch des Gastes mit einem menschlichen Operator des Hotels verbindet. Zusätzlich unterstützt die automatische Vermittlung 50 auch eine Sprachwahl zu anderen Hoteldiensten und Durchwahlen (im Allgemeinen zur Rezeption oder zum Hotelrestaurant).
Für die Verbesserung des Aufenthalts des Gastes im Hotel kann das Vermittlungssystem 10 der vorliegenden Erfindung ebenfalls anderen Hoteldiensten einen Zugriff vermitteln. So kann zum Beispiel die phonetische Aussprache des Gastes verwendet werden, um eine Nachricht in einem Voice-Mail-System 26 durch einen Sprachsynthesizer 24 anpassen zu lassen. Die so angepasste Nachricht wird abgespielt, wenn der Gast nicht in seinem Zimmer ist, um den Ruf zu empfangen. Weiterhin kann die Nationalität des Gastes verwendet werden, um einen Weckruf in der Sprache des Gastes zu erzeugen. Es ist ebenfalls vorgesehen, dass das automatische Vermittlungssystem der vorliegenden Erfindung mit anderen Hotelsystemen 28 über ein Interface verbunden wird.
Die 2 zeigt das Lexikontrainingssystem 30 in detaillierter Form. Im Allgemeinen erzeugt ein Lexikontrainingssystem Aussprachen von buchstabierten Namen durch die Konvertierung der Buchstaben, die den Namen in Wort-Phonem Daten buchstabieren, wobei diese erzeugten Aussprachen verwendet werden, um den Spracherkenner 22 zu trainieren. Ein robuster und zuverlässiger Phonetisierer ist notwendig, um ein Lexikontrainingssystem 30 zu implementieren. Wie durch das Hotelregistrierungssystem 14 aufgenommen, wird die buchstabierte Form des Namens des Gastes als Input für den Phonetisierer 34 verwendet.
Eine beispielhafte Ausführungsform des Phonetisierers 34 wird in 3 gezeigt, um die Prinzipien der Erzeugung von multiplen Aussprachen zu illustrieren, die auf der buchstabierten Form des Namens des Hotelgastes basieren. Vor diesem bestanden die meisten Versuche der buchstabierten Wort-zu-Aussprachetranskription darin, nur die Buchstaben als solche zu verwenden. Diese Techniken ließen jedoch viel zu wünschen übrig. So hat zum Beispiel ein lediglich auf Buchstaben basierender Aussprachegenerator große Schwierigkeiten, das Wort Bibel richtig auszusprechen. Basierend auf der Sequenz der Buchstaben würde das nur auf Buchstaben basierende System mit einer hohen Wahrscheinlichkeit das Wort „Bib-l" aussprechen, was einem Vorschulkind entspricht, das gerade das Wort Bibel lernt bzw. dessen Aussprache. Der Fehler von konventionellen Systemen liegt darin begründet, dass inhärente Mehrdeutigkeiten durch die unterschiedlichen Ausspracheregeln, die durch viele Sprachen vorgegeben sind, nur schwer lösbar sind. Die englische Sprache zum Beispiel weist Hunderte von unterschiedlichen Ausspracheregeln auf, was es sehr schwierig und sehr teuer zu berechnen macht, dem Problem mit einer Wort-zu-Wort basierenden Vorgehensweise nahe zu rücken.
Hieraus ergibt sich, dass der Phonetisierer 34 zwei Stufen verwendet, die erste Stufe verwendet eine Menge von nur buchstabenorientierten Entscheidungsbäumen 72 und die zweite Stufe verwendet eine Menge von gemischten Entscheidungsbäumen 74. Eine Eingabesequenz 76, wie zum Beispiel die Sequenz der Buchstaben B-I-B-L-E, wird in einen dynamisch programmierten Phonem-Sequenz-Generator 78 gefüttert. Der Sequenzgenerator verwendet den nur buchstabenorientierten Baum 72, um eine Liste von Aussprachen 80 zu generieren, diese referenzieren mögliche Aussprachekandidaten der buchstabierten Wort-Input-Sequenz.
Der Sequenzgenerator untersucht sequenziell jeden Buchstaben in der Sequenz unter Anwendung des Entscheidungsbaumes der mit den Buchstaben verbunden ist, um eine Phonemaussprache auszuwählen für diesen Buchstaben, wobei die Entscheidung auf Wahrscheinlichkeitsdaten basiert, die im ausschließlich aus Buchstaben bestehenden Baum enthalten sind. In der bevorzugten Ausführungsform umfasst die Menge von nur mit Buchstaben versehenen Entscheidungsbäumen einen Entscheidungsbaum für jeden Buchstaben im Alphabet. Die 4 zeigt ein Beispiel für einen buchstabenorientierten Entscheidungsbaum für den Buchstaben E. Der Entscheidungsbaum umfasst eine Vielzahl von internen Knoten (dargestellt als Ovale in der Figur) und eine Mehrzahl von Blattknoten (dargestellt als Rechtecke in der Figur). Jeder interne Knoten ist mit einer Ja- oder Nein-Frage versehen. Ja- oder Nein-Fragen können entweder mit Ja oder Nein beantwortet werden. In den Bäumen die lediglich Buchstaben aufweisen, sind diese Fragen auf den gegebenen Buchstaben (in diesem Fall der Buchstabe E) und seine benachbarten Buchstaben gerichtet, die ihm in der Eingabesequenz folgen. Wie aus 4 deutlich wird, verzweigt jeder interne Knoten nach links oder rechts, abhängig davon, ob die ihm zugeordnete Frage mit Ja oder Nein beantwortet wurde.
Abkürzungen werden in 4 wie folgt verwendet: Zahlen in Anführungszeichen, wie zum Beispiel „+1" oder „–1" beziehen sich auf die Positionen der Buchstabierung relativ zum aktuellen Buchstaben. So bedeutet zum Beispiel „+1L=='R'?": „Ist der Buchstabe nach dem aktuellen Buchstaben (der in diesem Falle der Buchstabe E ist) ein R?". Die Abkürzungen CONS und VOW repräsentieren Klassen von Buchstaben, nämlich Konsonanten und Vokale. Das Fehlen eines benachbarten Buchstabens oder eines Null-Buchstabens wird durch das Symbol – repräsentiert, das als Füller oder Platzhalter verwendet wird zur Ausrichtung bestimmter Buchstaben mit korrespondierenden Phonemaussprachen. Das Symbol # beschreibt eine Wortgrenze.
Die Blattknoten sind mit Wahrscheinlichkeitsdaten versehen, was dazu führt, dass mögliche Phonemaussprachen mit numerischen Werten versehen werden, die die Wahrscheinlichkeit repräsentieren, dass das entsprechende Phonem die korrekte Aussprache des vorgegebenen Buchstabens darstellt. Zum Beispiel bedeutet die Schreibweise „iy=>0,51" „die Wahrscheinlichkeit des Phonems 'iy' in diesem Blatt ist 0,51". Das Nullphonem, zum Beispiel Stumm, wird repräsentiert durch das Symbol '–'.
Der Sequenzgenerator 78 (3) benutzt den lediglich buchstabenorientierten Entscheidungsbaum 72, um eine oder mehrere Aussprachehypothesen zu konstruieren, die in der Liste 80 gespeichert sind. In einer bevorzugten Ausführungsform wird jeder Aussprache ein numerischer Wert zugeordnet, der erlangt wird durch die Kombination der Wahrscheinlichkeitswerte der ausgewählten individuellen Phoneme unter Verwendung des Entscheidungsbaumes 72. Wortaussprachen können bewertet werden durch die Erzeugung einer Matrix von möglichen Kombinationen, um dann durch die Verwendung einer dynamischen Programmierung die besten Kandidaten auszuwählen. Alternativ können die n-besten Kandidaten ausgewählt werden durch die Verwendung einer Substitutionstechnik, die zuerst den wahrscheinlichsten Wortkandidaten wählt und dann solche Wortkandidaten durch eine iterative Substitution generiert, was man im Folgenden sehen kann.
Die Aussprache mit dem höchsten Wahrscheinlichkeitswert wird ausgewählt, indem zuerst die entsprechenden Werte der am höchsten bewerteten Phoneme miteinander multipliziert werden (diese wurden durch die Untersuchung der Wortknoten bestimmt), um dann diese Auswahl als den wahrscheinlichsten Kandidat oder als den zuerst besten Wortkandidaten zu verwenden. Zusätzliche (n-best) Kandidaten können dann durch die Untersuchung der Phonemdaten in den Blattknoten ausgewählt werden, um dann wieder das Phonem, das vorher nicht ausgewählt wurde, zu identi fizieren, das die kleinste Differenz von einem anfänglich ausgewählten Phonem aufweist. Dieses minimalunterschiedliche Phonem wird dann ersetzt und anstatt des ursprünglich ausgewählten, um dadurch den zweitbesten Wortkandidaten zu erzeugen. Der vorher genannte Prozess kann iterativ wiederholt werden bis die gewünschte Anzahl von n-besten Kandidaten ausgewählt wurde. Liste 80 kann in einer absteigenden Bewertungsrichtung sortiert werden, so dass die Aussprache des Besten durch die buchstabenorientierten Analyse in der Liste als erster auftaucht.
Wie oben bereits ausgeführt wurde, erzeugt eine Nurbuchstabenorientierte Analyse oftmals schlechte Ergebnisse. Dies ergibt sich daraus, dass die buchstabenorientierte Analyse keine Möglichkeit hat, festzustellen, welches Phonem jeder Buchstabe durch die folgenden Buchstaben erzeugen wird. Hieraus ergibt sich, dass eine Nur-buchstabenorientierte Analyse eine Aussprache mit einem hohen Wert erzeugt, die tatsächlich nicht in einer natürlichen Sprache auftauchen würde. Hieraus ergibt sich, dass der richtige Name, Achilles, zu einer Aussprache führt, die die beiden LL's phonetisiert: ah-k-ich-l-l-iy-z. In der natürlichen Sprache ist das zweite L im Allgemeinen als stumm anzusehen: ah-k-ich-l-iy-z. Der Sequenzgenerator der Bäume, die nur buchstabenorientiert sind, hat keinerlei Mechanismen, um Wortaussprachen zu erkennen, die niemals in der natürlichen Sprache auftreten würden.
Die zweite Stufe des Phonetisierers 34 richtet sich an das oben genannte Problem. Ein gemischter Baumwertschätzer 82 verwendet die Menge der gemischten Entscheidungsbäume 74, um die Überlebensfähigkeit jeder Aussprache in der Liste 80 abzuschätzen. Der Bewertungsabschätzer arbeitet, indem jeder Buchstabe in der Eingabesequenz zusammen mit den Phonemen, die jedem Buchstaben durch den Sequenzgenerator 78 zugeordnet wurden, untersucht werden. Wie die Menge der Bäume mit lediglich Buchstaben, hat die Menge der gemischten Bäume einen gemischten Baum für jeden Buchstaben des Alphabetes. Ein exemplarischer gemischter Baum wird in 5 gezeigt. Wie der Baum der lediglich Buchstaben aufweist, hat der gemischte Baum auch interne Knoten und Blattknoten. Die internen Knoten sind als Ovale dargestellt und die Blattknoten sind als Rechtecke in 5 dargestellt. Die internen Knoten sind jeweils mit einer Ja-Nein Frage versehen und die Blattknoten sind mit Wahrscheinlichkeitsdaten versehen. Auch wenn die Struktur des gemischten Baums der eines Baumes mit lediglich Buchstaben ähnelt, so besteht doch ein wichtiger Unterschied. Die internen Knoten des gemischten Baumes können zwei unterschiedliche Klassen von Fragen aufweisen. Ein interner Knoten kann eine Frage bezüglich eines gegebenen Buchstabens umfassen sowie bezüglich der benachbarten Buchstaben in der Klasse oder er kann eine Frage bezüglich des Phonems aufweisen, das dem Buchstaben zugeordnet ist und bzgl. der benachbarten Phoneme, die der Sequenz entsprechen. Der Entscheidungsbaum ist somit gemischt und umfasst somit eine gemischte Klasse von Fragen.
Die Abkürzungen, die in 5 verwendet werden, ähneln denen aus 4, weisen jedoch einige zusätzliche Abkürzungen auf. Das Symbol L repräsentiert eine Frage über einen Buchstaben und seine benachbarten Buchstaben. Das Symbol P repräsentiert eine Frage über ein Phonem und seine benachbarten Phoneme. Zum Beispiel bedeutet die Frage „+1L=='D'?" „Ist der Buchstabe in der +1 Position ein 'D'?". Die Abkürzung CONS und SYL sind Phonemklassen, nämlich Konsonanten und silbisch. So ist zum Beispiel die Frage „+1P==CONS?" gleichzustellen mit der Frage „Ist das Phonem in der +1 Position ein Konsonant?", die Zahlen in den Blattknoten sind Phonemwahrscheinlichkeiten wie sie es in den Bäumen mit lediglich Buchstaben sind.
Der gemischte Baumverwertungsabschätzer wertet erneut jede der Aussprachen in der Liste 80 basierend auf den gemischten Baum fragen und unter Verwendung der Wahrscheinlichkeitsdaten in den Blattknoten des gemischten Baums. Falls gewünscht, können die Listen der Aussprachen zusammen mit den entsprechenden Bewertungen wie in Liste 84 gespeichert werden. Falls gewünscht, kann die Liste 84 in absteigender Folge sortiert werden, so dass die erste Aussprache eine mit der höchsten Bewertung ist.
In vielen Fällen unterscheidet sich die Aussprache, die die höchstbewertete Position in der Liste 84 belegt, von der Aussprache, die die höchste Bewertungsposition in der Liste 80 aufweist. Dies ergibt sich daraus, dass der gemischte Baumbewertungsabschätzer, der die gemischten Bäume 74 verwendet, solche Aussprachen herausfiltert, die nicht selbstkonsistente Phonemsequenzen aufweisen oder Aussprachen darstellen, die nicht in der natürlichen Sprache auftreten würden. Wie bereits oben ausgeführt wurde, stellen Phonetisierer 34, wie sie in 3 dargestellt werden, nur eine mögliche Ausführungsform dar.
Die Aussprachen der Liste 84 können verwendet werden für Aussprachewörterbücher, die sowohl für die Spracherkennung als auch für Sprachsyntheseanwendungen verwendet werden können. Falls gewünscht, kann ein Selektormodul 36 den Zugriff auf Liste 84 aufweisen, um eine oder mehrere der Aussprachen in der Liste zu erhalten. Im Allgemeinen wählt der Selektor 86 die Aussprache mit dem höchsten Punktwert und stellt diese als Ausgabeaussprache 88 zur Verfügung. In einem Spracherkennungskontext wird das Aussprachewörterbuch während der Spracherkennungstrainingsphase verwendet, um Aussprachen für Wörter wie zum Beispiel Hotelgastnamen zur Verfügung zu stellen, die noch nicht im Erkennungslexikon gefunden wurden.
Wie auf das Lexikontrainingssystem 30 angewandt wurde, können die n-besten Aussprachen 38 für jeden buchstabierten Gastnamen als Input für einen Modelltrainer 46, wie in 2 darge stellt wird, dienen. In der bevorzugten Ausführungsform der vorliegenden Erfindung kann ein Hidden Markov Modell (HMM) als Basis für den Modelltrainer 46 verwendet werden. Ein HMM Modell, das jedem Gastnamen zugeordnet wird, wird in einem Lexikon 32 gespeichert, um durch den Spracherkenner 22 verwendet zu werden. Der Modelltrainer 46 ist ein Modul, das HMM Modelle baut, indem die kontextabhängigen Phonemmodelle, die einer oder mehreren generierten Aussprachen entspricht, miteinander verknüpft werden. Auch wenn diese Ausführungsform eines automatischen Betreuungssystems eine Spracherkennung auf dem Phonemlevel durchführt, so kann ein Fachmann auf diesem Gebiet erkennen, dass ein Spracherkenner 22 auch auf anderen Erkennungsleveln (das heißt Wortleveln) implementiert werden kann.
Das Lexikontrainingssystem 30 kann optional auch einen Aussprache-Extraktor 40 implementieren, der eine oder mehrere aufgereihte Aussprachen als Output 44 erzeugt, die als Input für einen Modelltrainer 46 dienen. Zum Zeitpunkt der Registrierung oder zu anderen folgenden Zeiten während des Aufenthalts eines Gastes im Hotel kann der gesprochene Name des Hotelgastes durch das Telefon 16 oder andere Audioempfangsgeräte festgehalten werden. Der gesprochene Name stellt dann die bevorzugte Aussprache des Gastnamens dar, und kann somit durch den Modelltrainer 46 verwendet werden. So kann zum Beispiel der gesprochene Namen in eine digitale Form konvertiert werden, der dann wiederum verwendet wird, um eine oder mehrere Aussprachen von den n-besten Aussprachen 38 zu wählen, die dem Namen des Gastes entsprechen. Um dies zu erreichen, kann der Modelltrainer 46 eine dynamische Grammatik aufbauen, durch Verwendung der n-besten Aussprache 38 und dann eine Erkennung der gesprochenen Sprache als Input durchführen unter Verwendung der dynamischen Grammatik, um eine oder mehrere ausgerichtete Aussprachen 44 zu wählen.
Für Sprachsyntheseapplikationen, können die n-besten Aussprachen 38 eines für jeden Gastnamen verwendet werden, um einen Phonemklang zu erzeugen für das zusammengefügte Playback. Im Zusammenhang mit einem automatischen Hotelbetreuungssystem 10 kann der Sprachsynthesizer 24 eine richtige Aussprache des Namens des Gastes eines Hotels bereitstellen, so dass der Angestellte (im Allgemeinen die Person an der Rezeption oder am Empfang), der mit dem Gast in Interaktion steht, diesen richtig ausspricht. Es wird ebenfalls beabsichtigt, dass der Sprachsyntheziser 24 verwendet werden kann, um die Features eines E-Mail-Lesesystems oder einer anderen Text-zu-Sprache Anwendung zu erweitern.
Das automatische Betreuungssystem 10 umfasst ein automatisches Betreuungsmodul, ein Lexikontrainingssystem 30, einen Spracherkenner 22 und einen Sprachsyntheziser 24, die jeweils einzeln oder zusammen mit anderen Hotelsystemen zusammengepackt werden können. Um die Implementierung zu vereinfachen und die Kosten zu minimieren, sollte das automatische Betreuungssystem 10 spezifisch designt sein, um mit anderen existierenden Hotelsystemen ein Interface zu bilden, wie zum Beispiel das Hotelregistrierungssystem, das Hotelabrechnungssystem und das Finanzbuchsystem, die Hoteltelefonanlage und so weiter. Eine minimale Anpassung sollte notwendig sein, um diese Typen von Interfaces bereitzustellen. So soll zum Beispiel anstatt der Modifikation einer existierenden Hotelgastdatenbank zur Integration der Aussprache, der Nationalität und so weiter, in eine existierende Datenstruktur das automatische Betreuungssystem 10 besser die Hotelgastinformation über ein Interface auf der Basis des Betriebsystems erlangt werden, zum Beispiel durch Bildschirmcapture zur Registrierungszeit oder durch API, die für das Hotelregistrierungssystem 14 definiert wurde.
Das vorher genannte offenbart und beschreibt im Wesentlichen exemplarisch die Ausführungsform der vorliegenden Erfindung.
Eine Person, die mit dem Stand der Technik vertraut ist, wird schnell durch die Ausführungen und die beigefügten Zeichnungen und die Ansprüche erkennen, dass eine Vielzahl von Änderungen und Modifikationen und Variationen durchgeführt werden können, ohne sich aus dem Schutzumfang der vorliegenden Erfindung, wie er durch die beigefügten Ansprüche definiert wurde, herauszubewegen.
Die vorliegende Erfindung stellt ebenfalls ein Computerprogramm zur Verfügung, das einen computerinterpretierbaren Code umfasst, der wenn er auf einem Computer ausgeführt wird einen technischen Effekt der vorliegenden Erfindung erzeugt. Weiterhin stellt die vorliegende Erfindung ein Computerprogrammprodukt zur Verfügung, das ein computerlesbares Speichermedium umfasst, das einen Code gespeichert hat, der, wenn er ausgeführt wird, auf einem Computer die technischen Effekte der vorliegenden Erfindung umsetzt.

Claims

Ein automatisches Hotelbetreuungssystem um Zimmer-zu-Zimmer Anrufe über eine Telefonanlage, das eine Vielzahl von Telefonanschlüssen aufweist, zu koordinieren, umfassend: – ein Hotelgastdatenbanksystem zum Empfangen und Speichern von Buchstaben, die den Namen eines Hotelgastes buchstabieren, und wobei jedem Gast ein zugeordneter Telefonanschluss zuteil wird; – ein Spracherkennungssystem mit einem Lexikon, um Wortphoneminformationen zu speichern, das eine Menge von Wörtern den Phonemen zuordnet, die die Worte formen; – ein Lexikontrainingsystem, das mit dem besagten Hotelgastdatenbanksystem verbunden ist, um Hotelgastnamen als Wörter zu dem besagten Lexikon hinzuzufügen, das besagte Trainingssystem erzeugt Aussprachen von buchstabierten Namen, indem die Buchstaben, die den Namen buchstabieren, in Wortphoneminformationen umgewandelt werden; und – ein Rufrouting System, das mit dem besagten Erkennungssystem verbunden ist, um einen gesprochenen Namen eines Hotelgastes, der über einen der besagten Telefonanschlüsse eingegeben wurde, in einen vordefinierten Hotelgastnamen umzuwandeln, und um den besagten Hotelgastnamen zu verwenden, um den zugeordneten Telefonanschluss von dem besagten Datenbanksystem zu bestimmen, – das besagte Rufrouting System ist mit der besagten Telefonanlage verbunden, um die besagte Telefonanlage zu veranlassen, den besagten Telefonanschluss anzurufen, unter Berücksichtigung des Eintrags des besagten gesprochenen Namens von einem der besagten Telefonanschlüsse.
Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 1, wobei das besagte Lexikontrainingssystem weiterhin umfasst: – einen phonetischen Darsteller, der mit dem besagten Datenbanksystem verbunden ist, um Buchstaben, die einen Hotelgastnamen buchstabieren, in eine Vielzahl von Aussprachen für jeden der besagten Hotelgastnamen zu konvertieren; und – einen Modelltrainer, der mit dem besagten phonetischen Darsteller verbunden ist, um von der besagten Vielzahl von Aussprachen für jeden der besagten Hotelgastnamen ein verstecktes Markov Modell (HMM) zu erzeugen und um das besagte HMM in dem besagten Lexikon für die Verwendung durch das besagte Spracherkennungssystem zu speichern.
Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 2, weiterhin umfassend einen Extrahierer für die Aussprache, der zwischen dem besagten phonetischen Darsteller und dem besagten Modelltrainer angeordnet ist, um zumindest eine ausgerichtete Aussprache zu erzeugen, die dem besagten Modelltrainer als Input dient, wobei der besagte Extrahierer die Aussprache einer gesprochenen Aussprache eines Namens eines Hotelgastes erhält und wobei er eingerichtet ist, um zumindest eine von der besagten Vielzahl von Aussprachen von dem besagten phonetischen Darsteller basierend auf der gesprochenen Aussprache des besagten Hotelgastnamens auszuwählen.
Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 1, 2 oder 3, wobei das besagte Hotelgastdatenbanksystem Buchstaben speichert, die den Namen eines ersten Hotelservices buchstabieren, dem ein erster Telefonanschluss zugeordnet ist, so dass das automatische Hotelbetreuungssystem eine Rufeinleitung zu dem besagten ersten Telefonanschluss durchführt, als Reaktion auf die Eingabe eines gesprochenen Namens, der dem besagten ersten Hotelservice zugeordnet ist.
Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 1, 2, 3 oder 4, weiterhin umfassend einen Erkenner für die buchstabierte Eingabe eines Namens, der mit dem besagten Rufrouting-System und der besagten Telefonanlage verbunden ist, um die Zimmer-zu-Zimmer Verbindungen zu koordinieren, wenn die Spracherkennung nicht in der Lage ist, den besagten gesprochenen Namen des besagten Hotelgastes zu erkennen.
Ein automatisches Hotelbetreuungssystem um Anschluss-zu-Anschluss Anrufe über eine Telefonanlage, die eine Vielzahl von Telefonanschlüssen aufweist, zu koordinieren, umfassend: – ein Hotelgastdatenbanksystem zum Empfangen und Speichern von Buchstaben, die den Identifikator eines Hotelgastes buchstabieren, und wobei jedem Gast ein zugeordneter Telefonanschluss zuteil wird; – ein Spracherkennungssystem mit einem Lexikon, um Wortphoneminformationen zu speichern, das eine Menge von Wörtern den Phonemen zuordnet, die die Worte formen; – ein Lexikontrainingsystem, das mit dem besagten Hotelgastdatenbanksystem verbunden ist, um die besagten Identifikatoren als Wörter zu dem besagten Lexikon hinzuzufügen, das besagte Trainingssystem erzeugt Aussprachen von buchstabierten Wörtern, indem die Buchstaben, die den Identifikator buchstabieren, in Wortphoneminformationen umgewandelt werden; und – ein Rufrouting-System, das mit dem besagten Erkennungssystem verbunden ist, um einen gesprochenen Identifikator eines Hotelgastes, der über einen der besagten Telefonanschlüsse eingegeben wurde, in einen vordefinierten Systembenutzer Identifikator umzuwandeln, und um den besagten Systembenutzer Identifikator zu verwenden, um den zugeordneten Telefonanschluss von dem besagten Hotelgastdatenbanksystem zu bestimmen, – das besagte Rufrouting-System ist mit der besagten Telefonanlage verbunden, um die besagte Telefonanlage zu veranlas sen, den besagten Telefonanschluss anzurufen, unter Berücksichtigung des Eintrags des besagten gesprochen Identifikators von einem der besagten Telefonanschlüsse.
Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 6, wobei das besagte Lexikontrainingssystem weiterhin umfasst: – einen phonetischen Darsteller, der mit dem besagten Telefondatenbanksystem verbunden ist, um Buchstaben, die den besagten Identifikator eines Hotelgastes buchstabieren, in eine Vielzahl von Aussprachen für jeden der besagten Identifikatoren zu konvertieren; und – einen Modelltrainer, der mit dem besagten phonetischen Darsteller verbunden ist, um von der besagten Vielzahl von Aussprachen für jeden der besagten Identifikatoren ein verstecktes Markov Modell (HMM) zu erzeugen und um das besagte HMM in dem besagten Lexikon für die Verwendung durch das besagte Spracherkennungssystem zu speichern.
Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 7, weiterhin umfassend einen Extrahierer für die Aussprache, der zwischen dem besagten phonetischen Darsteller und dem besagten Modelltrainer angeordnet ist, um zumindest eine ausgerichtete Aussprache zu erzeugen, die dem besagten Modelltrainer als Input dient, wobei der besagte Extrahierer die Aussprache einer gesprochenen Aussprache eines Identifikators eines Hotelgastes erhält und wobei er eingerichtet ist, um zumindest eine von der besagten Vielzahl von Aussprachen von dem besagten phonetischen Darsteller basierend auf der gesprochenen Aussprache des besagten Identifikators auszuwählen.
Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 6, 7 oder 8, wobei der besagte Identifikator weiterhin als zumindest einer von einem Namen und einer Umgebung definiert ist, die mit der zugeordneten Telefonnummer in Verbindung zu bringen ist.
Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 6, 7, 8 oder 9, weiterhin umfassend einen Erkenner für die buchstabierte Eingabe eines Identifikators, der mit dem besagten Rufrouting-System und der besagten Telefonanlage verbunden ist, um die Anschluss-zu-Anschluss Verbindungen zu koordinieren, wenn die Spracherkennung nicht in der Lage ist, den besagten gesprochenen Identifikator des besagten Hotelgastes zu erkennen.
Ein automatisches Hotelbetreuungssystem für eine synthetische Sprachausgabe eines Hotelgastnamens über eine Telefonanlage, die eine Vielzahl von Telefonanschlüssen aufweist, umfassend: – ein Hotelgastdatenbanksystem zum Empfangen und Speichern von Buchstaben, die den Namen eines Hotelgastes buchstabieren, und zum Speichern von Informationen, die jedem Gast zuordenbar sind; – ein synthetisches Sprachausgabesystem mit einem Lexikon, um Wortphoneminformationen zu speichern, das eine Menge von Wörtern den Phonemen zuordnet, die die Worte formen; – ein Lexikontrainingsystem, das mit dem besagten Datenbanksystem verbunden ist, um Hotelgastnamen als Wörter zu dem besagten Lexikon hinzuzufügen, das besagte Trainingssystem erzeugt Aussprachen von buchstabierten Namen, indem die Buchstaben, die den Namen buchstabieren, in Wortphoneminformationen umgewandelt werden; und – einen virtuellen Betreuer, der mit dem besagten Hotelgastdatenbanksystem und dem besagten synthetischen Sprachausgabesystem verbunden ist, um den buchstabierten Namen eines Hotelgasts, der durch einen Systembenutzer des Hotelgastdatenbanksystems eingegeben wurde, in eine synthetische Aussprache des besagten buchstabierten Namens durch die Verwendung der Wortphoneminformationen umzuwandeln; – der besagte virtuelle Betreuer ist mit einer Telefonanlage verbunden, um die besagte synthetische Aussprache zu einem der besagen Systembenutzer über einen der besagten Telefonanschlüsse bereitzustellen.