DE112014005715T5 - Dialogmanager - Google Patents

Dialogmanager Download PDF

Info

Publication number
DE112014005715T5
DE112014005715T5 DE112014005715.0T DE112014005715T DE112014005715T5 DE 112014005715 T5 DE112014005715 T5 DE 112014005715T5 DE 112014005715 T DE112014005715 T DE 112014005715T DE 112014005715 T5 DE112014005715 T5 DE 112014005715T5
Authority
DE
Germany
Prior art keywords
user
observations
dialog manager
actions
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112014005715.0T
Other languages
English (en)
Inventor
Shinji Watanabe
Hao Tang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112014005715T5 publication Critical patent/DE112014005715T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

Ein Dialogmanager empfängt vorausgegangene Nutzeraktionen und vorausgegangene Beobachtungen und aktuelle Beobachtungen. Vorausgegangene und aktuelle Nutzerzustände, vorausgegangene Nutzeraktionen, aktuelle Nutzeraktionen, zukünftige Nutzeraktionen und zukünftige Beobachtungen werden hypothetisiert. Die Nutzerzustände, die Nutzeraktionen und die Nutzerbeobachtungen werden versteckt. Ein Merkmalsvektor wird basierend auf den Nutzerzuständen, Systemaktionen, Nutzeraktionen und den Beobachtungen extrahiert. Eine erwartete Belohnung für jede aktuelle Aktion beruht auf einem loglinearen Modell unter Nutzung der Merkmalsvektoren. Dann wird die aktuelle Aktion mit der optimalen erwarteten Belohnung ausgegeben.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf die Text- und Sprachverarbeitung, und insbesondere auf Dialogmanager.
  • Hintergrund zum Stand der Technik
  • Ein Dialogmanager ist ein System zum Erfüllen bestimmter Aufgaben mittels eines Dialogs in Sprach- oder Textform. Der Dialog findet abwechselnd zwischen einem Nutzer und einem System statt. Der Dialog kann Sequenzen von Nutzeraktionen und Systemaktionen umfassen. Die Nutzeraktionen sind vor dem System versteckt. Das System bestimmt die Nutzeraktionen anhand von Beobachtungen. Der Nutzer befindet sich in einem veränderlichen Zustand, welcher ebenfalls vor dem System versteckt ist. Das System nutzt ein Planen, um eine nächste Systemaktion unter Berücksichtigung vorausgehender Systemaktionen und Beobachtungen basierend auf Nutzerspracheingaben oder Texten zu bestimmen. Das Planen wird nachfolgend erläutert.
  • Der Dialogmanager kann regelbasiert sein oder kann einen statistischen Rahmen nutzen, z. B. einen partiell beobachtbaren Markow-Entscheidungsprozess (POMDP). In einem POMDP-Dialogsystem wird der Dialog durch eine Gruppe von Zufallsvariablen wiedergegeben. Bei jedem Austausch enthält der Dialog eine beobachtete Variable, welche die Äußerungen des Nutzers wiedergibt, und eine versteckte Zustandsvariable, welche den bisherigen Fortschritt des Dialogs wiedergibt, und eine ausgewählte Systemaktion. Das POMDP-Modell definiert zwei Wahrscheinlichkeitsabhängigkeiten: die bedingte Wahrscheinlichkeit des aktuellen Zustands unter Berücksichtigung des vorausgegangenen Zustands und der Systemaktion; und die bedingte Wahrscheinlichkeit der Beobachtung unter Berücksichtigung des aktuellen Zustands und der vorausgegangenen Systemaktion.
  • Eine Belohnungsfunktion spezifiziert für jeden Austausch ein Eignungskriterium als Funktion des Zustands und der gewählten Aktion für diesen Austausch. Mithilfe der Belohnungsfunktion ist es möglich, eine Strategie zu bestimmen, welche die optimale Systemaktion unter Berücksichtigung der Kenntnisse über die Zustandsverteilung zu dem aktuellen Zeitpunkt bereitstellt. Diese Strategie kann dann genutzt werden, um Systemaktionen im Verlauf eines Dialogs zu generieren. Das Auswählen von Systemaktionen, um die Belohnung zu maximieren, wird als Planen bezeichnet.
  • Um ein funktionierendes System zu erzielen, ist es erforderlich, die Modellparameter zu ermitteln, welche die Wahrscheinlichkeiten in dem POMPD definieren. Dieses Ermitteln wird als Lernen bezeichnet. Die Parameter werden typischerweise mittels eines maximalen Wahrscheinlichkeitskriteriums (ML) ermittelt und nicht mittels der Belohnungsfunktion. Es kann zum Beispiel ein Dynamisches Bayessches Netz (DBN) mit maximaler Wahrscheinlichkeit eingesetzt werden. Ein grundlegendes Problem im Zusammenhang mit diesen Ansätzen besteht darin, dass das Planen und Lernen separat und unabhängig voneinander mittels verschiedener Kriterien optimiert werden. Zudem stellen das Planen und Erlernen bekanntlich schwierige Optimierungsprobleme dar, da Interferenzen in variablen Räumen, welche groß genug sind, um reale Probleme zu beherrschen, schwer bewältigbar werden.
  • Zusammenfassung der Erfindung
  • Die Ausführungsformen der Erfindung stellen Dialogsysteme in Text- und Sprachform basierend auf einem statistischen Dialograhmen bereit. Gegenüber einem in herkömmlichen Ansätzen genutzten generativen Modell wird in der Erfindung ein diskriminatives Modell eingesetzt, um das Verhältnis zwischen Systemaktionen, Beobachtungen und weiteren Informationen auf Grundlage von einem loglinearen Modellrahmen zu repräsentieren. Dann gibt der Dialogmanager eine geeignete Systemaktion unter Berücksichtigung einer Sequenz von vorausgegangenen Beobachtungen und Systemaktionen durch direktes Optimieren einer erwarteten Belohnung mittels eines Belief-Propagation-Verfahrens aus.
  • Da in der Erfindung ein loglineares Modell eingesetzt wird, können verschiedene Merkmale, welche während der Dialoge gewonnen werden, in das Modell eingebunden werden. Die Parameter in dem loglinearen Modell können mittels Dialogdaten basierend auf dem Belief-Propagation-Verfahren statistisch trainiert werden, um die Leistung durch Nutzung differenzierter Systemaktionen zu steigern.
  • Die Ausführungsformen stellen ein kohärentes System bereit, welches den Vorteil eines konsistenten Optimierungskriteriums aufweist und gleichzeitig effizienter optimierbar ist. Das Dialogsystem ist mittels einer loglinearen Wahrscheinlichkeitsverteilung modelliert. Somit stellt die Erfindung einen loglinearen Dialogmanager bereit.
  • Loglineare Verteilungen werden seit der Einführung von bedingten Zufallsfeldern (CRF) eingesetzt, um Sequenzen zu modellieren. Obwohl loglineare Modelle im Allgemeinen nicht alle Verteilungsfamilien repräsentieren können, wird es durch ihre flexible Nutzung der Merkmalsfunktionen möglich, dass die Modelle eine große Familie von probabilistischen Modellen wiedergeben kann. Da es sich bei dem Modell um eine Markow-Kette handelt, können für die Optimierung effiziente Verfahren ausgenutzt werden. Insbesondere optimieren die Ausführungsformen eine Summe der Belohnungen über die Zeitachse.
  • Um den Raum der möglichen Zustände, Nutzeraktionen und Systemaktionen zu repräsentieren, werden kontextfreie Grammatiken (CFG) eingesetzt, welche jeweils auf einem Graph der semantischen Darstellungen in Bezug auf die Domäne des Dialogsystems basieren.
  • Anstelle von einfachen Multinomialen nehmen die Zufallsvariablen Werte im Raum von Syntaxbäumen an, welche durch die CFGs generiert werden. Dadurch wird eine reiche Struktur bereitgestellt, welche das Extrahieren einer großen Bandbreite von Merkmalen ermöglicht. Durch die flexible Nutzung der loglinearen Modellen inhärenten Merkmale können die Merkmale ausgelegt sein, zu bewirken, dass sich das Dialogsystem genauso verhält, wie ein herkömmliches regelbasiertes Dialogsystem als ein besonderer Fall. Dies erfolgt durch Implementieren der Regeln des Dialogsystems als Indikatorfunktion-Merkmale und Initialisieren der Parameter, so dass die loglinearen Wahrscheinlichkeitsverteilungen mit diesen Regeln übereinstimmen.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Flussdiagramm eines planenden Teils eines Dialogmanagers gemäß Ausführungsformen der Erfindung.
  • 2 ist ein Flussdiagramm eines lernenden Teils eines Dialogmangers gemäß Ausführungsformen der Erfindung.
  • 3 ist ein Beispiel eines Syntaxbaums gemäß Ausführungsformen der Erfindung.
  • 4 ist ein Syntaxbaum eines beispielhaften Zustands gemäß Ausführungsformen der Erfindung.
  • 5 ist ein Blockdiagramm beispielhafter Produktionsregeln für den Syntaxbaum gemäß 4.
  • Beschreibung der Ausführungsformen
  • Planen
  • Wie in den 1 und 2 dargestellt, stellen die Ausführungsformen der vorliegenden Erfindung einen loglinearen Dialogmanager bereit. Das System umfasst einen planenden Teil 100 und einen lernenden Teil 200. Die Verfahren der zwei Teile können in Prozessoren 150 und 250 durchgeführt werden, welche mit Speicher- und Eingabe-/Ausgabe-Schnittstellen durch im Stand der Technik bekannte Busse verbunden sind. Die Prozessoren 150 und 250 können miteinander kombiniert werden.
  • Systemmodell
  • Unser probabilistisches Modell weist vier Variablen zu jedem Zeitschritt t auf. Zwei der Variablen sind beobachtbare Variablen: eine Systemaktion at 102 und eine Beobachtung ot 101. Die anderen zwei Variablen sind latente Variablen, welche abgeleitet sind: eine Nutzeraktion ut 201 und der Zustand st.
  • Jeder Schritt des Dialogs verläuft wie folgt: Basierend auf allen vorausgegangenen Systemaktionen und vorausgegangenen Beobachtungen bis zur Zeit t – 1 fordert das System den Nutzer durch eine Anfrage at – 1 auf. Die Antwort vom Nutzer wird durch ot wiedergeben. In einer Ausführungsform ist ot eine Sequenz der vom Nutzer gesprochenen Worte. Es soll allerdings erkannt werden, dass die Antwort eingegebener Text sein kann oder die Antwort durch andere Mittel in das System eingegeben werden kann.
  • Die Bedeutung der Antwort wird durch die Nutzeraktion ut wiedergeben, welche von der Beobachtung abgeleitet werden kann. Der neue Zustand st kann auf Grundlage der Systemaktion at – 1 und der Nutzeraktion ut und dem vorausgegangenen Zustand st – 1 abgeleitet werden. In dem vorliegenden System stellt der Zustand st die Absicht des Nutzers dar, obwohl dieser grundsätzlich auch zusätzliche Kontextinformationen enthalten kann.
  • Mittels tiefgestellter Doppelpunkte zum Bezeichnen der Sequenzen, z. B. s0:T ≡ {s0, s1, ..., sT}, wird eine Dialogsitzung mit der Dauer T durch vier variable Sequenzen wiedergegeben: s0:T, a0:T, o1:T, u1:T.
  • 3 zeigt das Modell für eine Dialogsitzung, welche durch einen Faktorgraph wiedergegeben ist, welcher für das vorliegende loglineare Modell mit der folgenden Wahrscheinlichkeitsverteilung über die Variablen übereinstimmt:
    Figure DE112014005715T5_0002
    wobei Zθ eine Normalisierungskonstante ist, φf und φg Vektoren der Merkmalsfunktionen sind, und θf und θg jeweils die Vektoren der entsprechenden Modellparameter sind.
  • Zum Zeitpunkt t = T, sind st+1 und ut+1 undefiniert, wie in Faktor fT des Faktorgraphen gezeigt. Zum Zeitpunkt t = T wird φf als Funktion nur seiner ersten zwei Eingaben definiert. Zum Vereinfachen der Formel werden außerdem die folgenden Vektoren definiert:
    Figure DE112014005715T5_0003
    welche ein präziseres Umschreiben der Gleichung (1) ermöglichen als
    Figure DE112014005715T5_0004
    die Partitionsfunktion von p(s0:T, a0:T, u1:T, o1:T) ist.
  • Variablenräume
  • Es wird angenommen, dass S, U, A und O die Variablenräume repräsentieren, d. h. die Gruppe von allen möglichen Werten der Variablen st, ut, at beziehungsweise ot. Jede Beobachtung o ∊ O kann Wellenformen, akustische Merkmale, erkannte Texte und/oder sprachliche Merkmale sein. Es wird o ∊ O eingesetzt, um die Eingabesequenz darzustellen, und der Variablenraum O wird als die Gruppe von allen Wortsequenzen in einer Vokabulargruppe V definiert.
  • Wir definieren jeden Variablenraum S, U und A mittels einer kontextfreien Grammatik (CFG) umfassend eine Gruppe von Produktionsregeln. Jeder Variablenraum wird als die Gruppe von allen möglichen Syntaxbäumen definiert, welche durch ihre CFG generiert werden kann.
  • 5 zeigt einige Produktionsregeln in der CFG, welche den Variablenraum S definieren. Jeder Syntaxbaum in S ist ein möglicher Wert des Zustands st. 5 zeigt einen möglichen Wert für den Zustand st, welcher ein Syntaxbaum in S ist, welcher mittels der Produktionsregeln generiert wurde, welche in 4 in Fett dargestellt sind. In 4 sind Datenstationen in Anführungszeichen und keine Datenstationen ohne Anführungszeichen aufgeführt. Die Variable $ADRESSE$ kann entweder mit anderen Produktionsregeln zusätzlich erweitert werden oder eine freie Variable bleiben.
  • Merkmale
  • Wie in dem Faktorgraph in 3 und in Gleichung (1) erkannt werden kann, liegen in dem vorliegenenden Modell zwei Faktortypen vor. Der erste Faktortyp, bezeichnet mit f, modelliert statistische Abhängigkeiten zwischen dem vorausgegangenen und dem aktuellen Zustand, der Systemaktion und der Nutzeraktion. Der zweite Faktortyp, bezeichnet mit g, modelliert Abhängigkeiten zwischen beobachteten Wortsequenzen und ihren semantischen Interpretationen. Für die Variablen, deren Räume mittels CFGs definiert sind, wird jeder Variablenwert (jeder Syntaxbaum) als Gruppe von aktiven Produktionsregeln behandelt. Beispielsweise sind die Produktionsregeln, welche in dem Syntaxbaum in 5 aktiv sind, in den Produktionsregeln gemäß 4 in Fett dargestellt.
  • Es sei angenommen, dass GS, GU und GA die Gruppe von Produktionsregeln in den CFGs sind, welche die Variablenräume für S (Zustände), U (Nutzeraktionen) beziehungsweise A (Systemaktionen) definieren. Für den Faktor g wird jede Produktionsregel in einer Nutzeraktion mit einem Sprachenmodell für die zugeordnete Wortsequenz assoziiert. Insbesondere liegen unter Berücksichtigung von einer Nutzeraktion ut und Beobachtung ot die Merkmale in Form von 1k ∊ ut, wi-1wi ∊ ot vor, welche eine Indikatorfunktion bezeichnet, welche gleich 1 ist, wenn, und nur wenn, eine bestimmte Produktionsregel k ∊ GU in dem Syntaxbaum der Nutzeraktion ut aktiv ist und ein bestimmtes Digramm wi-1wi in der Wortsequenz der Beobachtung ot enthalten ist.
  • Das Sprachmodell für eine Produktionsregel, welches nahe der Wurzel der Baummodelle erscheint, ist eine allgemeine Äußerungsklasse, während Produktionsregeln, welche nahe der Blätter der Bäume erscheinen, spezialisierter sind. Für den Faktor f können gemeinsam auftretende Produktionsregeln berücksichtigt werden. Beispielsweise gleicht das Merkmal 1k ∊ st-1, k' ∊ st welches zwei bestimmte Produktionsregeln k, k' ∊ GS betrifft, 1 wenn, und nur wenn, k in dem Zustand st-1 aktiv ist und k' in dem Zustand st aktiv ist. Ein weiterer Merkmalstyp, welcher typischerweise in Dialogsystemen zu sehen ist, ist 1k ∊ st-1, k' ∊ st, j ∊ at-1, welcher ebenfalls erfordert, dass die Produktionsregel j ∊ GA in Systemaktion at-1 aktiv ist. Dieses Merkmal gibt an, dass eine bestimmte Systemaktion dazu tendiert, einen bestimmten Zustandsübergang herbeizuführen.
  • Planen und Lernen
  • Die zwei grundlegenden durch einen Dialogmanager zu lösenden Probleme sind das Planen 100 und Lernen 200. Es wird angenommen, dass eine Belohnungsfunktion r:S × A → R+ gegeben ist, welche das Modell bewertet. Nachfolgend wird das Planen und Lernen im Hinblick auf die Belohnungsfunktion erläutert.
  • Planen
  • Planen zum Zeitpunkt τ ist das Problem des Bestimmens der optimalen Systemaktion aτ unter Berücksichtigung aller vorausgegangener Systemaktionen a0:τ-1 und Beobachtungen o1:τ. Es wird angenommen, dass der Dialog die Dauer T aufweist. Das Planungsproblem wird als das Bestimmen von aτ zum Maximieren der erwarteten Belohnung E als Zielfunktion definiert.
  • Figure DE112014005715T5_0005
  • Die Erwartung erfolgt über alle nicht gegebenen Variablen, d. h. alle Zustände, alle Nutzeraktionen und alle zukünftigen Systemaktionen und Beobachtungen.
  • Die Zielfunktion könnte durch Hypothetisieren jeder Aktion aτ, Bestimmen der erwarteten Belohnung unter Berücksichtigung der Aktion mittels des Summenprodukt-Verfahrens, und Auswählen der Aktion, welche die erwartete Belohnung maximiert hat, genau optimiert werden.
  • Zum Zwecke der einfachen Implementierung und Schnelligkeit wird allerdings stattdessen die untere Variationsgrenze des Ziels optimiert,
    Figure DE112014005715T5_0006
    welche aus der Jensenschen Ungleichung gewonnen wird, wobei γt Variationsparameter sind, so dass Σtγt = 1. Obwohl γt mittels eines Erwartungs-Maximierungs-(EM)-Verfahrens optimiert werden kann, wird γt = 1/(T + 1) eingesetzt, um die Berechnung weiter zu vereinfachen.
  • Diese Produktform weist die vorteilhafte Eigenschaft auf, dass die Belohnung mit der Zeit faktorisiert wird. Mit anderen Worten, kann die Gleichung (6) erweitert werden zu
    Figure DE112014005715T5_0007
    wobei Z' die Partitionsfunktion von p unter Angabe von a0:τ-1, o1:τ ist. Nun kann die Optimale aτ durch ein herkömmliches Summenprodukt-Verfahren in dem grafischen Modell mit einem zusätzlichen Ausdruck für die Belohnung bestimmt werden.
  • Zunächst werden Reliefs von beiden Enden des grafischen Modells zur Zeit τ gesammelt, und die aτ zum Maximieren der Gleichung (6) bestimmt. Wenn die Belief-Propagation explizit ausgeschrieben wird, wird diese zu einer Vorwärts-Rückwärts-Prozedur. Beispielsweise wird die weitergeleitete Nachricht
    Figure DE112014005715T5_0008
    vom Faktorknoten ft zum Variablenknoten st+1 durch die folgende Summation über die Nachrichten
    Figure DE112014005715T5_0009
    mit der (nicht-normalisierten) Wahrscheinlichkeitsfunktion der Zeit t zu
    Figure DE112014005715T5_0010
    bestimmt.
  • Hierbei ist
    Figure DE112014005715T5_0011
    die Nachricht vom Variablenknoten at an den Faktorknoten ft. Es kann jede beliebige Verteilung, einschließlich einer gleichmäßigen Verteilung eingesetzt werden, wobei für at keine vorherige Verteilung angenommen wird.
    Figure DE112014005715T5_0012
    ist die Nachricht vom Variablenknoten st an den Faktorknoten
    Figure DE112014005715T5_0013
    wird rekursiv aus dem vorangehenden Schritt bestimmt.
  • Die Nachricht vom Variablenknoten ut+1 an den Faktorknoten ft Ist
    Figure DE112014005715T5_0014
  • Diese Nachricht wird aus der Verteilung als
    Figure DE112014005715T5_0015
    bestimmt.
  • Somit wird die Summation über die Sequenzen
    Figure DE112014005715T5_0016
    vermieden, um die Nachricht
    Figure DE112014005715T5_0017
    zu bestimmen. Die weiteren Nachrichten können ebenfalls effizient ohne Berechnen der Summation über die Sequenzen basierend auf den Belief-Propagation-Methoden bestimmt werden.
  • Es wird angemerkt, dass sich die Mittelung über zukünftige Aktionen mittels des Summenprodukt-Verfahrens von der herkömmlichen POMDP-Optimierung unterscheidet, welche das Maximieren der Belohnung gegenüber zukünftigen Systemaktionen verfolgt. Es ist auch möglich, ein Max-Produkt-Verfahren bei at einzusetzen, während für die anderen Variablen das Summenprodukt eingesetzt wird, um die Maximierung gegenüber zukünftigen Systemaktionen zu erzielen. Allerdings umfasst das Modell selbst eine stochastische Methode, welche eine vorausberechenbare Verteilung gegenüber zukünftigen Aktionen bereitstellt.
  • Lernen
  • Der lernende Teil 200 ist ähnlich dem planenden Teil, mit der Ausnahme, dass anstelle des Bestimmens der optimalen Aktion, das Interesse an dem Bestimmen der optimalen Modellparameter liegt. Mit anderen Worten wird θ 103 gesucht, so dass die erwartete Belohnung
    Figure DE112014005715T5_0018
    unter Berücksichtigung aller Systemaktionen a0:T und aller Beobachtungen o1:T maximiert wird. Die Erwartung wird erneut für alle nicht gegebenen Variablen angewendet, nämlich alle Zustände und alle Nutzeraktionen. Ähnlich dem planenden Teil kann hier gleichfalls die untere Variationsgrenze der Gleichung (8) eingesetzt werden.
  • Es wird der Gradientenabstieg eingesetzt, um das Lernziel zu optimieren. Im Allgemeinen ist für jede Nutzenfunktion ν(x) und Wahrscheinlichkeitsverteilung der Form basierend auf dem loglinearen Modell
    Figure DE112014005715T5_0019
    die Ableitung des erwarteten Nutzens: ∂ / ∂θEx[ν(x)] = Ex[φ(x)ν(x)] – Ex[φ(x)]E[ν(x)]. (10)
  • Es wird darauf hingewiesen, dass für jeden Parameter θi in θ die Ableitung die Kovarianz zwischen dem entsprechendem Merkmal ϕi und dem Nutzen ist. Somit werden die Parameter, welche Merkmalen entsprechen, welche mit dem Nutzen positiv korreliert sind, erhöht, während die Parameter, deren entsprechende Merkmale mit dem Nutzen negativ korreliert sind, herabgesetzt werden.
  • Angewandt auf das Modell ergibt sich:
    Figure DE112014005715T5_0020
    wobei Erwartungen mittels p(s0:T, u1:T|a0:T, o1:T) bestimmt werden. In dem allgemeinen Fall kann es schwierig sein, diese Quantitäten zu bestimmen. Es wird die Particle-Belief-Propagation eingesetzt.
  • Particle-Belief-Propagation
  • Da die Variablenräume zu groß sind, um marginalisiert zu werden, wird das Problem mittels Partikel-Belief-Propagation gelöst:
  • Zu betrachten ist eine Nachricht
    Figure DE112014005715T5_0021
    verlaufend vom Faktorknoten ft zum Variablenknoten st+1 durch durch Marginalisieren über st, at und ut+1:
    Figure DE112014005715T5_0022
  • Wenn die Summe mittels Importance-Sampling umgeschrieben wird, wird
    Figure DE112014005715T5_0023
    für eine Sampling-Verteilung πt(a), πt(u), πt(s) erhalten, über welche die Erwartung bestimmt wird.
  • Dann kann die Erwartung mit einer Summe
    Figure DE112014005715T5_0024
    über Stichproben {s (1) / t, a (1) / t, u (1) / t+1), ..., (s (N) / t, a (N) / t, u (N) / t+1)] approximiert werden.

Claims (13)

  1. Dialogmanager, umfassend die Schritte: Empfangen vorausgegangener Nutzeraktionen und vorausgegangener Beobachtungen und aktueller Beobachtungen; Hypothetisieren vorausgegangener und aktueller Nutzerzustände, vorausgegangener Nutzeraktionen, aktueller Nutzeraktionen, zukünftiger Systemaktionen und zukünftiger Beobachtungen, wobei die Nutzerzustände, die Nutzeraktionen und die Nutzerbeobachtungen verborgen sind; Extrahieren eines Merkmalsvektors basierend auf den Nutzerzuständen, den Systemaktionen, den Nutzeraktionen und den Beobachtungen; Bestimmen einer erwarteten Belohnung für jede aktuelle Aktion basierend auf einem loglinearen Modell unter Nutzung der Merkmalsvektoren; und Ausgeben der aktuellen Aktion, welche eine optimale erwartete Belohnung aufweist, wobei die Schritte in einem Prozessor erfolgen.
  2. Dialogmanager nach Anspruch 1, wobei ein probabilistisches Modell in jedem Zeitschritt t vier Variablen aufweist, umfassend zwei beobachtbare Variablen: die Systemaktion at, die Beobachtung ot, und zwei latente Variablen: die Nutzeraktion ut, und der Nutzerzustand st.
  3. Dialogmanager nach Anspruch 2, wobei eine Dialogsitzung mit der Dauer T durch vier variable Sequenzen repräsentiert ist: s0:T, a0:T, o1:T, u1:T.
  4. Dialogmanager nach Anspruch 3, wobei die Dialogsitzung durch einen Faktorgraphen repräsentiert ist, welcher einer gemeinsamen Wahrscheinlichkeitsverteilung entspricht
    Figure DE112014005715T5_0025
    wobei Zθ eine Normalisierungskonstante, φf und φg die Merkmalsvektoren sind, und θf und θg jeweils Vektoren der entsprechenden Modellparameter sind.
  5. Dialogmanager nach Anspruch 1, wobei die Beobachtungen gesprochene Worte oder Text sind.
  6. Dialogmanager nach Anspruch 3, wobei S, U, A und O die Variablenräume repräsentieren, d. h. eine Gruppe von allen möglichen Werten für die Variablen st, ut, at, beziehungsweise ot.
  7. Dialogmanager nach Anspruch 6, ferner umfassend: Definieren der Variablenräume S, U und A mittels einer kontextfreien Grammatik (CFG) umfassend eine Gruppe von Produktionsregeln.
  8. Dialogmanager nach Anspruch 7, wobei jeder Variablenraum als eine Gruppe von allen möglichen Syntaxbäumen definiert ist, welche durch die CFG generiert werden können.
  9. Dialogmanager nach Anspruch 3, wobei ein planender Teil des Dialogmanagers eine optimale Systemaktion ατ unter Berücksichtigung aller vorausgehender Systemaktionen α0:τ-1 und vorausgehender Beobachtungen o1:τ bestimmt.
  10. Dialogmanager nach Anspruch 3, ferner umfassend: Maximieren einer Zielfunktion
    Figure DE112014005715T5_0026
    um die erwartete Belohnung zu bestimmen.
  11. Dialogmanager nach Anspruch 10, ferner umfassend: Optimieren einer unteren Variationsgrenze für die Zielunktion.
  12. Dialogmanager nach Anspruch 10, wobei die Zielfunktion mittels eines Gradientenabstiegs optimiert wird.
  13. Dialogmanager nach Anspruch 10, wobei die Zielfunktion mittels einer Particle-Belief-Propagation optimiert wird.
DE112014005715.0T 2013-12-16 2014-11-21 Dialogmanager Pending DE112014005715T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/106,968 US9311430B2 (en) 2013-12-16 2013-12-16 Log-linear dialog manager that determines expected rewards and uses hidden states and actions
US14/106,968 2013-12-16
PCT/JP2014/081666 WO2015093263A1 (en) 2013-12-16 2014-11-21 Dialog manager

Publications (1)

Publication Number Publication Date
DE112014005715T5 true DE112014005715T5 (de) 2016-09-22

Family

ID=52023593

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112014005715.0T Pending DE112014005715T5 (de) 2013-12-16 2014-11-21 Dialogmanager

Country Status (5)

Country Link
US (1) US9311430B2 (de)
JP (1) JP6297144B2 (de)
CN (1) CN105830058B (de)
DE (1) DE112014005715T5 (de)
WO (1) WO2015093263A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10831802B2 (en) * 2016-04-11 2020-11-10 Facebook, Inc. Techniques to respond to user requests using natural-language machine learning based on example conversations
GB2559408B (en) * 2017-02-06 2020-07-08 Toshiba Kk A spoken dialogue system, a spoken dialogue method and a method of adapting a spoken dialogue system
GB2559618B (en) * 2017-02-13 2020-07-08 Toshiba Kk A dialogue system, a dialogue method and a method of adapting a dialogue system
US10424302B2 (en) * 2017-10-12 2019-09-24 Google Llc Turn-based reinforcement learning for dialog management
CN108182942B (zh) * 2017-12-28 2021-11-26 瑞芯微电子股份有限公司 一种支持不同虚拟角色交互的方法和装置
JP7005016B2 (ja) 2018-11-15 2022-01-21 株式会社スノウチ エンドタブ

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5617509A (en) * 1995-03-29 1997-04-01 Motorola, Inc. Method, apparatus, and radio optimizing Hidden Markov Model speech recognition
JP2004139446A (ja) * 2002-10-18 2004-05-13 Inst Of Physical & Chemical Res 日常言語コンピュータシステムで用いられる秘書エージェントシステム、秘書エージェントプログラムおよび対話プランニング方法
JP4843987B2 (ja) * 2005-04-05 2011-12-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN101398914A (zh) * 2008-11-10 2009-04-01 南京大学 基于点的部分可观察马尔可夫决策过程的预处理方法
US8793119B2 (en) 2009-07-13 2014-07-29 At&T Intellectual Property I, L.P. System and method for generating manually designed and automatically optimized spoken dialog systems
US8433578B2 (en) 2009-11-30 2013-04-30 At&T Intellectual Property I, L.P. System and method for automatically generating a dialog manager
US8457968B2 (en) 2009-12-08 2013-06-04 At&T Intellectual Property I, L.P. System and method for efficient tracking of multiple dialog states with incremental recombination
US8484077B2 (en) * 2010-07-21 2013-07-09 Yahoo! Inc. Using linear and log-linear model combinations for estimating probabilities of events
US8676583B2 (en) 2010-08-30 2014-03-18 Honda Motor Co., Ltd. Belief tracking and action selection in spoken dialog systems
US9582592B2 (en) * 2011-12-20 2017-02-28 Bitly, Inc. Systems and methods for generating a recommended list of URLs by aggregating a plurality of enumerated lists of URLs, the recommended list of URLs identifying URLs accessed by users that also accessed a submitted URL
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US20130325483A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Dialogue models for vehicle occupants
US20150025931A1 (en) * 2013-07-18 2015-01-22 International Business Machines Corporation Business opportunity forecasting

Also Published As

Publication number Publication date
JP2016535297A (ja) 2016-11-10
US9311430B2 (en) 2016-04-12
JP6297144B2 (ja) 2018-03-20
CN105830058A (zh) 2016-08-03
CN105830058B (zh) 2019-11-22
US20150169553A1 (en) 2015-06-18
WO2015093263A1 (en) 2015-06-25

Similar Documents

Publication Publication Date Title
DE112014005715T5 (de) Dialogmanager
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE112016005042B4 (de) Verfahren zum verarbeiten von äusserungen
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE202017106363U1 (de) Neuronale Antwort-auf-Frage-Netze
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
WO2002045076A1 (de) Verfahren und system zur multilingualen spracherkennung
DE60109999T2 (de) Spracherkennung mittels lexikalischer Bäumen
DE112014007123T5 (de) Dialogsteuersystem und Dialogsteuerverfahren
DE19635754A1 (de) Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
EP0987683A2 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE112013007333T5 (de) Mustererkennungsvorrichtung und Mustererkennungsverfahren
WO2006111230A1 (de) Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE102022201753A1 (de) Erweiterung Graph- basierter Kennzeichnungsregeln für schwach überwachtesTraining von auf maschinellem Lernen basierender Eigennamenerkennung
DE102023202711A1 (de) System und verfahren mit entitätstypklarstellung für feinkörnigen faktenwissenabruf
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: PFENNING, MEINIG & PARTNER MBB PATENTANWAELTE, DE

R016 Response to examination communication
R084 Declaration of willingness to licence
R016 Response to examination communication