DE112014005715T5

DE112014005715T5 - Dialogmanager

Info

Publication number: DE112014005715T5
Application number: DE112014005715.0T
Authority: DE
Inventors: Shinji Watanabe; Hao Tang
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-12-16
Filing date: 2014-11-21
Publication date: 2016-09-22
Also published as: JP2016535297A; US9311430B2; JP6297144B2; CN105830058A; CN105830058B; US20150169553A1; WO2015093263A1

Abstract

Ein Dialogmanager empfängt vorausgegangene Nutzeraktionen und vorausgegangene Beobachtungen und aktuelle Beobachtungen. Vorausgegangene und aktuelle Nutzerzustände, vorausgegangene Nutzeraktionen, aktuelle Nutzeraktionen, zukünftige Nutzeraktionen und zukünftige Beobachtungen werden hypothetisiert. Die Nutzerzustände, die Nutzeraktionen und die Nutzerbeobachtungen werden versteckt. Ein Merkmalsvektor wird basierend auf den Nutzerzuständen, Systemaktionen, Nutzeraktionen und den Beobachtungen extrahiert. Eine erwartete Belohnung für jede aktuelle Aktion beruht auf einem loglinearen Modell unter Nutzung der Merkmalsvektoren. Dann wird die aktuelle Aktion mit der optimalen erwarteten Belohnung ausgegeben.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich im Allgemeinen auf die Text- und Sprachverarbeitung, und insbesondere auf Dialogmanager.
Hintergrund zum Stand der Technik
Ein Dialogmanager ist ein System zum Erfüllen bestimmter Aufgaben mittels eines Dialogs in Sprach- oder Textform. Der Dialog findet abwechselnd zwischen einem Nutzer und einem System statt. Der Dialog kann Sequenzen von Nutzeraktionen und Systemaktionen umfassen. Die Nutzeraktionen sind vor dem System versteckt. Das System bestimmt die Nutzeraktionen anhand von Beobachtungen. Der Nutzer befindet sich in einem veränderlichen Zustand, welcher ebenfalls vor dem System versteckt ist. Das System nutzt ein Planen, um eine nächste Systemaktion unter Berücksichtigung vorausgehender Systemaktionen und Beobachtungen basierend auf Nutzerspracheingaben oder Texten zu bestimmen. Das Planen wird nachfolgend erläutert.
Der Dialogmanager kann regelbasiert sein oder kann einen statistischen Rahmen nutzen, z. B. einen partiell beobachtbaren Markow-Entscheidungsprozess (POMDP). In einem POMDP-Dialogsystem wird der Dialog durch eine Gruppe von Zufallsvariablen wiedergegeben. Bei jedem Austausch enthält der Dialog eine beobachtete Variable, welche die Äußerungen des Nutzers wiedergibt, und eine versteckte Zustandsvariable, welche den bisherigen Fortschritt des Dialogs wiedergibt, und eine ausgewählte Systemaktion. Das POMDP-Modell definiert zwei Wahrscheinlichkeitsabhängigkeiten: die bedingte Wahrscheinlichkeit des aktuellen Zustands unter Berücksichtigung des vorausgegangenen Zustands und der Systemaktion; und die bedingte Wahrscheinlichkeit der Beobachtung unter Berücksichtigung des aktuellen Zustands und der vorausgegangenen Systemaktion.
Eine Belohnungsfunktion spezifiziert für jeden Austausch ein Eignungskriterium als Funktion des Zustands und der gewählten Aktion für diesen Austausch. Mithilfe der Belohnungsfunktion ist es möglich, eine Strategie zu bestimmen, welche die optimale Systemaktion unter Berücksichtigung der Kenntnisse über die Zustandsverteilung zu dem aktuellen Zeitpunkt bereitstellt. Diese Strategie kann dann genutzt werden, um Systemaktionen im Verlauf eines Dialogs zu generieren. Das Auswählen von Systemaktionen, um die Belohnung zu maximieren, wird als Planen bezeichnet.
Um ein funktionierendes System zu erzielen, ist es erforderlich, die Modellparameter zu ermitteln, welche die Wahrscheinlichkeiten in dem POMPD definieren. Dieses Ermitteln wird als Lernen bezeichnet. Die Parameter werden typischerweise mittels eines maximalen Wahrscheinlichkeitskriteriums (ML) ermittelt und nicht mittels der Belohnungsfunktion. Es kann zum Beispiel ein Dynamisches Bayessches Netz (DBN) mit maximaler Wahrscheinlichkeit eingesetzt werden. Ein grundlegendes Problem im Zusammenhang mit diesen Ansätzen besteht darin, dass das Planen und Lernen separat und unabhängig voneinander mittels verschiedener Kriterien optimiert werden. Zudem stellen das Planen und Erlernen bekanntlich schwierige Optimierungsprobleme dar, da Interferenzen in variablen Räumen, welche groß genug sind, um reale Probleme zu beherrschen, schwer bewältigbar werden.
Zusammenfassung der Erfindung
Die Ausführungsformen der Erfindung stellen Dialogsysteme in Text- und Sprachform basierend auf einem statistischen Dialograhmen bereit. Gegenüber einem in herkömmlichen Ansätzen genutzten generativen Modell wird in der Erfindung ein diskriminatives Modell eingesetzt, um das Verhältnis zwischen Systemaktionen, Beobachtungen und weiteren Informationen auf Grundlage von einem loglinearen Modellrahmen zu repräsentieren. Dann gibt der Dialogmanager eine geeignete Systemaktion unter Berücksichtigung einer Sequenz von vorausgegangenen Beobachtungen und Systemaktionen durch direktes Optimieren einer erwarteten Belohnung mittels eines Belief-Propagation-Verfahrens aus.
Da in der Erfindung ein loglineares Modell eingesetzt wird, können verschiedene Merkmale, welche während der Dialoge gewonnen werden, in das Modell eingebunden werden. Die Parameter in dem loglinearen Modell können mittels Dialogdaten basierend auf dem Belief-Propagation-Verfahren statistisch trainiert werden, um die Leistung durch Nutzung differenzierter Systemaktionen zu steigern.
Die Ausführungsformen stellen ein kohärentes System bereit, welches den Vorteil eines konsistenten Optimierungskriteriums aufweist und gleichzeitig effizienter optimierbar ist. Das Dialogsystem ist mittels einer loglinearen Wahrscheinlichkeitsverteilung modelliert. Somit stellt die Erfindung einen loglinearen Dialogmanager bereit.
Loglineare Verteilungen werden seit der Einführung von bedingten Zufallsfeldern (CRF) eingesetzt, um Sequenzen zu modellieren. Obwohl loglineare Modelle im Allgemeinen nicht alle Verteilungsfamilien repräsentieren können, wird es durch ihre flexible Nutzung der Merkmalsfunktionen möglich, dass die Modelle eine große Familie von probabilistischen Modellen wiedergeben kann. Da es sich bei dem Modell um eine Markow-Kette handelt, können für die Optimierung effiziente Verfahren ausgenutzt werden. Insbesondere optimieren die Ausführungsformen eine Summe der Belohnungen über die Zeitachse.
Um den Raum der möglichen Zustände, Nutzeraktionen und Systemaktionen zu repräsentieren, werden kontextfreie Grammatiken (CFG) eingesetzt, welche jeweils auf einem Graph der semantischen Darstellungen in Bezug auf die Domäne des Dialogsystems basieren.
Anstelle von einfachen Multinomialen nehmen die Zufallsvariablen Werte im Raum von Syntaxbäumen an, welche durch die CFGs generiert werden. Dadurch wird eine reiche Struktur bereitgestellt, welche das Extrahieren einer großen Bandbreite von Merkmalen ermöglicht. Durch die flexible Nutzung der loglinearen Modellen inhärenten Merkmale können die Merkmale ausgelegt sein, zu bewirken, dass sich das Dialogsystem genauso verhält, wie ein herkömmliches regelbasiertes Dialogsystem als ein besonderer Fall. Dies erfolgt durch Implementieren der Regeln des Dialogsystems als Indikatorfunktion-Merkmale und Initialisieren der Parameter, so dass die loglinearen Wahrscheinlichkeitsverteilungen mit diesen Regeln übereinstimmen.
Kurzbeschreibung der Zeichnungen
1 ist ein Flussdiagramm eines planenden Teils eines Dialogmanagers gemäß Ausführungsformen der Erfindung.
2 ist ein Flussdiagramm eines lernenden Teils eines Dialogmangers gemäß Ausführungsformen der Erfindung.
3 ist ein Beispiel eines Syntaxbaums gemäß Ausführungsformen der Erfindung.
4 ist ein Syntaxbaum eines beispielhaften Zustands gemäß Ausführungsformen der Erfindung.
5 ist ein Blockdiagramm beispielhafter Produktionsregeln für den Syntaxbaum gemäß 4.
Beschreibung der Ausführungsformen
Planen
Wie in den 1 und 2 dargestellt, stellen die Ausführungsformen der vorliegenden Erfindung einen loglinearen Dialogmanager bereit. Das System umfasst einen planenden Teil 100 und einen lernenden Teil 200. Die Verfahren der zwei Teile können in Prozessoren 150 und 250 durchgeführt werden, welche mit Speicher- und Eingabe-/Ausgabe-Schnittstellen durch im Stand der Technik bekannte Busse verbunden sind. Die Prozessoren 150 und 250 können miteinander kombiniert werden.
Systemmodell
Unser probabilistisches Modell weist vier Variablen zu jedem Zeitschritt t auf. Zwei der Variablen sind beobachtbare Variablen: eine Systemaktion a_t 102 und eine Beobachtung o_t 101. Die anderen zwei Variablen sind latente Variablen, welche abgeleitet sind: eine Nutzeraktion u_t 201 und der Zustand s_t.
Jeder Schritt des Dialogs verläuft wie folgt: Basierend auf allen vorausgegangenen Systemaktionen und vorausgegangenen Beobachtungen bis zur Zeit t – 1 fordert das System den Nutzer durch eine Anfrage a_t – 1 auf. Die Antwort vom Nutzer wird durch o_t wiedergeben. In einer Ausführungsform ist o_t eine Sequenz der vom Nutzer gesprochenen Worte. Es soll allerdings erkannt werden, dass die Antwort eingegebener Text sein kann oder die Antwort durch andere Mittel in das System eingegeben werden kann.
Die Bedeutung der Antwort wird durch die Nutzeraktion u_t wiedergeben, welche von der Beobachtung abgeleitet werden kann. Der neue Zustand s_t kann auf Grundlage der Systemaktion a_t – 1 und der Nutzeraktion u_t und dem vorausgegangenen Zustand st – 1 abgeleitet werden. In dem vorliegenden System stellt der Zustand s_t die Absicht des Nutzers dar, obwohl dieser grundsätzlich auch zusätzliche Kontextinformationen enthalten kann.
Mittels tiefgestellter Doppelpunkte zum Bezeichnen der Sequenzen, z. B. s_0:T ≡ {s₀, s1, ..., s_T}, wird eine Dialogsitzung mit der Dauer T durch vier variable Sequenzen wiedergegeben: s_0:T, a_0:T, o_1:T, u_1:T.
3 zeigt das Modell für eine Dialogsitzung, welche durch einen Faktorgraph wiedergegeben ist, welcher für das vorliegende loglineare Modell mit der folgenden Wahrscheinlichkeitsverteilung über die Variablen übereinstimmt:
wobei Z_θ eine Normalisierungskonstante ist, φ_f und φ_g Vektoren der Merkmalsfunktionen sind, und θ_f und θ_g jeweils die Vektoren der entsprechenden Modellparameter sind.
Zum Zeitpunkt t = T, sind s_t+1 und u_t+1 undefiniert, wie in Faktor f_T des Faktorgraphen gezeigt. Zum Zeitpunkt t = T wird φ_f als Funktion nur seiner ersten zwei Eingaben definiert. Zum Vereinfachen der Formel werden außerdem die folgenden Vektoren definiert:
welche ein präziseres Umschreiben der Gleichung (1) ermöglichen als
die Partitionsfunktion von p(s_0:T, a_0:T, u_1:T, o_1:T) ist.
Variablenräume
Es wird angenommen, dass S, U, A und O die Variablenräume repräsentieren, d. h. die Gruppe von allen möglichen Werten der Variablen s_t, u_t, a_t beziehungsweise o_t. Jede Beobachtung o ∊ O kann Wellenformen, akustische Merkmale, erkannte Texte und/oder sprachliche Merkmale sein. Es wird o ∊ O eingesetzt, um die Eingabesequenz darzustellen, und der Variablenraum O wird als die Gruppe von allen Wortsequenzen in einer Vokabulargruppe V definiert.
Wir definieren jeden Variablenraum S, U und A mittels einer kontextfreien Grammatik (CFG) umfassend eine Gruppe von Produktionsregeln. Jeder Variablenraum wird als die Gruppe von allen möglichen Syntaxbäumen definiert, welche durch ihre CFG generiert werden kann.
5 zeigt einige Produktionsregeln in der CFG, welche den Variablenraum S definieren. Jeder Syntaxbaum in S ist ein möglicher Wert des Zustands s_t. 5 zeigt einen möglichen Wert für den Zustand s_t, welcher ein Syntaxbaum in S ist, welcher mittels der Produktionsregeln generiert wurde, welche in 4 in Fett dargestellt sind. In 4 sind Datenstationen in Anführungszeichen und keine Datenstationen ohne Anführungszeichen aufgeführt. Die Variable $ADRESSE$ kann entweder mit anderen Produktionsregeln zusätzlich erweitert werden oder eine freie Variable bleiben.
Merkmale
Wie in dem Faktorgraph in 3 und in Gleichung (1) erkannt werden kann, liegen in dem vorliegenenden Modell zwei Faktortypen vor. Der erste Faktortyp, bezeichnet mit f, modelliert statistische Abhängigkeiten zwischen dem vorausgegangenen und dem aktuellen Zustand, der Systemaktion und der Nutzeraktion. Der zweite Faktortyp, bezeichnet mit g, modelliert Abhängigkeiten zwischen beobachteten Wortsequenzen und ihren semantischen Interpretationen. Für die Variablen, deren Räume mittels CFGs definiert sind, wird jeder Variablenwert (jeder Syntaxbaum) als Gruppe von aktiven Produktionsregeln behandelt. Beispielsweise sind die Produktionsregeln, welche in dem Syntaxbaum in 5 aktiv sind, in den Produktionsregeln gemäß 4 in Fett dargestellt.
Es sei angenommen, dass GS, GU und GA die Gruppe von Produktionsregeln in den CFGs sind, welche die Variablenräume für S (Zustände), U (Nutzeraktionen) beziehungsweise A (Systemaktionen) definieren. Für den Faktor g wird jede Produktionsregel in einer Nutzeraktion mit einem Sprachenmodell für die zugeordnete Wortsequenz assoziiert. Insbesondere liegen unter Berücksichtigung von einer Nutzeraktion u_t und Beobachtung o_t die Merkmale in Form von ¹k ∊ u_t, w_i-1w_i ∊ o_t vor, welche eine Indikatorfunktion bezeichnet, welche gleich 1 ist, wenn, und nur wenn, eine bestimmte Produktionsregel k ∊ G_U in dem Syntaxbaum der Nutzeraktion u_t aktiv ist und ein bestimmtes Digramm w_i-1w_i in der Wortsequenz der Beobachtung o_t enthalten ist.
Das Sprachmodell für eine Produktionsregel, welches nahe der Wurzel der Baummodelle erscheint, ist eine allgemeine Äußerungsklasse, während Produktionsregeln, welche nahe der Blätter der Bäume erscheinen, spezialisierter sind. Für den Faktor f können gemeinsam auftretende Produktionsregeln berücksichtigt werden. Beispielsweise gleicht das Merkmal ¹k ∊ s_t-1, k' ∊ s_t welches zwei bestimmte Produktionsregeln k, k' ∊ G_S betrifft, 1 wenn, und nur wenn, k in dem Zustand s_t-1 aktiv ist und k' in dem Zustand s_t aktiv ist. Ein weiterer Merkmalstyp, welcher typischerweise in Dialogsystemen zu sehen ist, ist ¹k ∊ s_t-1, k' ∊ s_t, j ∊ a_t-1, welcher ebenfalls erfordert, dass die Produktionsregel j ∊ G_A in Systemaktion a_t-1 aktiv ist. Dieses Merkmal gibt an, dass eine bestimmte Systemaktion dazu tendiert, einen bestimmten Zustandsübergang herbeizuführen.
Planen und Lernen
Die zwei grundlegenden durch einen Dialogmanager zu lösenden Probleme sind das Planen 100 und Lernen 200. Es wird angenommen, dass eine Belohnungsfunktion r:S × A → R⁺ gegeben ist, welche das Modell bewertet. Nachfolgend wird das Planen und Lernen im Hinblick auf die Belohnungsfunktion erläutert.
Planen
Planen zum Zeitpunkt τ ist das Problem des Bestimmens der optimalen Systemaktion a_τ unter Berücksichtigung aller vorausgegangener Systemaktionen a_0:τ-1 und Beobachtungen o_1:τ. Es wird angenommen, dass der Dialog die Dauer T aufweist. Das Planungsproblem wird als das Bestimmen von a_τ zum Maximieren der erwarteten Belohnung E als Zielfunktion definiert.
Die Erwartung erfolgt über alle nicht gegebenen Variablen, d. h. alle Zustände, alle Nutzeraktionen und alle zukünftigen Systemaktionen und Beobachtungen.
Die Zielfunktion könnte durch Hypothetisieren jeder Aktion a_τ, Bestimmen der erwarteten Belohnung unter Berücksichtigung der Aktion mittels des Summenprodukt-Verfahrens, und Auswählen der Aktion, welche die erwartete Belohnung maximiert hat, genau optimiert werden.
Zum Zwecke der einfachen Implementierung und Schnelligkeit wird allerdings stattdessen die untere Variationsgrenze des Ziels optimiert,
welche aus der Jensenschen Ungleichung gewonnen wird, wobei γ_t Variationsparameter sind, so dass Σ_tγ_t = 1. Obwohl γ_t mittels eines Erwartungs-Maximierungs-(EM)-Verfahrens optimiert werden kann, wird γ_t = 1/(T + 1) eingesetzt, um die Berechnung weiter zu vereinfachen.
Diese Produktform weist die vorteilhafte Eigenschaft auf, dass die Belohnung mit der Zeit faktorisiert wird. Mit anderen Worten, kann die Gleichung (6) erweitert werden zu
wobei Z' die Partitionsfunktion von p unter Angabe von a_0:τ-1, o_1:τ ist. Nun kann die Optimale a_τ durch ein herkömmliches Summenprodukt-Verfahren in dem grafischen Modell mit einem zusätzlichen Ausdruck für die Belohnung bestimmt werden.
Zunächst werden Reliefs von beiden Enden des grafischen Modells zur Zeit τ gesammelt, und die a_τ zum Maximieren der Gleichung (6) bestimmt. Wenn die Belief-Propagation explizit ausgeschrieben wird, wird diese zu einer Vorwärts-Rückwärts-Prozedur. Beispielsweise wird die weitergeleitete Nachricht
vom Faktorknoten f_t zum Variablenknoten s_t+1 durch die folgende Summation über die Nachrichten
mit der (nicht-normalisierten) Wahrscheinlichkeitsfunktion der Zeit t zu
bestimmt.
Hierbei ist
die Nachricht vom Variablenknoten a_t an den Faktorknoten f_t. Es kann jede beliebige Verteilung, einschließlich einer gleichmäßigen Verteilung eingesetzt werden, wobei für a_t keine vorherige Verteilung angenommen wird.
ist die Nachricht vom Variablenknoten s_t an den Faktorknoten
wird rekursiv aus dem vorangehenden Schritt bestimmt.
Die Nachricht vom Variablenknoten u_t+1 an den Faktorknoten f_t Ist
Diese Nachricht wird aus der Verteilung als
bestimmt.
Somit wird die Summation über die Sequenzen
vermieden, um die Nachricht
zu bestimmen. Die weiteren Nachrichten können ebenfalls effizient ohne Berechnen der Summation über die Sequenzen basierend auf den Belief-Propagation-Methoden bestimmt werden.
Es wird angemerkt, dass sich die Mittelung über zukünftige Aktionen mittels des Summenprodukt-Verfahrens von der herkömmlichen POMDP-Optimierung unterscheidet, welche das Maximieren der Belohnung gegenüber zukünftigen Systemaktionen verfolgt. Es ist auch möglich, ein Max-Produkt-Verfahren bei a_t einzusetzen, während für die anderen Variablen das Summenprodukt eingesetzt wird, um die Maximierung gegenüber zukünftigen Systemaktionen zu erzielen. Allerdings umfasst das Modell selbst eine stochastische Methode, welche eine vorausberechenbare Verteilung gegenüber zukünftigen Aktionen bereitstellt.
Lernen
Der lernende Teil 200 ist ähnlich dem planenden Teil, mit der Ausnahme, dass anstelle des Bestimmens der optimalen Aktion, das Interesse an dem Bestimmen der optimalen Modellparameter liegt. Mit anderen Worten wird θ 103 gesucht, so dass die erwartete Belohnung
unter Berücksichtigung aller Systemaktionen a_0:T und aller Beobachtungen o_1:T maximiert wird. Die Erwartung wird erneut für alle nicht gegebenen Variablen angewendet, nämlich alle Zustände und alle Nutzeraktionen. Ähnlich dem planenden Teil kann hier gleichfalls die untere Variationsgrenze der Gleichung (8) eingesetzt werden.
Es wird der Gradientenabstieg eingesetzt, um das Lernziel zu optimieren. Im Allgemeinen ist für jede Nutzenfunktion ν(x) und Wahrscheinlichkeitsverteilung der Form basierend auf dem loglinearen Modell
die Ableitung des erwarteten Nutzens: ∂ / ∂θE_x[ν(x)] = E_x[φ(x)ν(x)] – E_x[φ(x)]E[ν(x)]. (10)
Es wird darauf hingewiesen, dass für jeden Parameter θ_i in θ die Ableitung die Kovarianz zwischen dem entsprechendem Merkmal ϕ_i und dem Nutzen ist. Somit werden die Parameter, welche Merkmalen entsprechen, welche mit dem Nutzen positiv korreliert sind, erhöht, während die Parameter, deren entsprechende Merkmale mit dem Nutzen negativ korreliert sind, herabgesetzt werden.
Angewandt auf das Modell ergibt sich:
wobei Erwartungen mittels p(s_0:T, u_1:T|a_0:T, o_1:T) bestimmt werden. In dem allgemeinen Fall kann es schwierig sein, diese Quantitäten zu bestimmen. Es wird die Particle-Belief-Propagation eingesetzt.
Particle-Belief-Propagation
Da die Variablenräume zu groß sind, um marginalisiert zu werden, wird das Problem mittels Partikel-Belief-Propagation gelöst:
Zu betrachten ist eine Nachricht
verlaufend vom Faktorknoten f_t zum Variablenknoten s_t+1 durch durch Marginalisieren über s_t, a_t und u_t+1:
Wenn die Summe mittels Importance-Sampling umgeschrieben wird, wird
für eine Sampling-Verteilung π_t(a), π_t(u), π_t(s) erhalten, über welche die Erwartung bestimmt wird.
Dann kann die Erwartung mit einer Summe
über Stichproben {s (1) / t, a (1) / t, u (1) / t+1), ..., (s (N) / t, a (N) / t, u (N) / t+1)] approximiert werden.

Claims

Dialogmanager, umfassend die Schritte: Empfangen vorausgegangener Nutzeraktionen und vorausgegangener Beobachtungen und aktueller Beobachtungen; Hypothetisieren vorausgegangener und aktueller Nutzerzustände, vorausgegangener Nutzeraktionen, aktueller Nutzeraktionen, zukünftiger Systemaktionen und zukünftiger Beobachtungen, wobei die Nutzerzustände, die Nutzeraktionen und die Nutzerbeobachtungen verborgen sind; Extrahieren eines Merkmalsvektors basierend auf den Nutzerzuständen, den Systemaktionen, den Nutzeraktionen und den Beobachtungen; Bestimmen einer erwarteten Belohnung für jede aktuelle Aktion basierend auf einem loglinearen Modell unter Nutzung der Merkmalsvektoren; und Ausgeben der aktuellen Aktion, welche eine optimale erwartete Belohnung aufweist, wobei die Schritte in einem Prozessor erfolgen.
Dialogmanager nach Anspruch 1, wobei ein probabilistisches Modell in jedem Zeitschritt t vier Variablen aufweist, umfassend zwei beobachtbare Variablen: die Systemaktion a_t, die Beobachtung o_t, und zwei latente Variablen: die Nutzeraktion u_t, und der Nutzerzustand s_t.
Dialogmanager nach Anspruch 2, wobei eine Dialogsitzung mit der Dauer T durch vier variable Sequenzen repräsentiert ist: s_0:T, a_0:T, o_1:T, u_1:T.
Dialogmanager nach Anspruch 3, wobei die Dialogsitzung durch einen Faktorgraphen repräsentiert ist, welcher einer gemeinsamen Wahrscheinlichkeitsverteilung entspricht
wobei Z_θ eine Normalisierungskonstante, φ_f und φ_g die Merkmalsvektoren sind, und θ_f und θ_g jeweils Vektoren der entsprechenden Modellparameter sind.
Dialogmanager nach Anspruch 1, wobei die Beobachtungen gesprochene Worte oder Text sind.
Dialogmanager nach Anspruch 3, wobei S, U, A und O die Variablenräume repräsentieren, d. h. eine Gruppe von allen möglichen Werten für die Variablen s_t, u_t, a_t, beziehungsweise o_t.
Dialogmanager nach Anspruch 6, ferner umfassend: Definieren der Variablenräume S, U und A mittels einer kontextfreien Grammatik (CFG) umfassend eine Gruppe von Produktionsregeln.
Dialogmanager nach Anspruch 7, wobei jeder Variablenraum als eine Gruppe von allen möglichen Syntaxbäumen definiert ist, welche durch die CFG generiert werden können.
Dialogmanager nach Anspruch 3, wobei ein planender Teil des Dialogmanagers eine optimale Systemaktion α_τ unter Berücksichtigung aller vorausgehender Systemaktionen α_0:τ-1 und vorausgehender Beobachtungen o_1:τ bestimmt.
Dialogmanager nach Anspruch 3, ferner umfassend: Maximieren einer Zielfunktion
um die erwartete Belohnung zu bestimmen.
Dialogmanager nach Anspruch 10, ferner umfassend: Optimieren einer unteren Variationsgrenze für die Zielunktion.
Dialogmanager nach Anspruch 10, wobei die Zielfunktion mittels eines Gradientenabstiegs optimiert wird.
Dialogmanager nach Anspruch 10, wobei die Zielfunktion mittels einer Particle-Belief-Propagation optimiert wird.