DE69427717T2 - Sprachdialogsystem - Google Patents

Sprachdialogsystem

Info

Publication number
DE69427717T2
DE69427717T2 DE69427717T DE69427717T DE69427717T2 DE 69427717 T2 DE69427717 T2 DE 69427717T2 DE 69427717 T DE69427717 T DE 69427717T DE 69427717 T DE69427717 T DE 69427717T DE 69427717 T2 DE69427717 T2 DE 69427717T2
Authority
DE
Germany
Prior art keywords
meaning
input
substring
application execution
expressions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69427717T
Other languages
English (en)
Other versions
DE69427717D1 (de
Inventor
Kaichiro Hatazaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of DE69427717D1 publication Critical patent/DE69427717D1/de
Publication of DE69427717T2 publication Critical patent/DE69427717T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

    HINTERGRUND DER ERFINDUNG Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Sprachdialogsystem und ein Verarbeitungsverfahren für dieses Sprachdialogsystem für den interaktiven Betrieb durch eine Spracheingabe, um z. B. einzukaufen oder ein Flugticket, eine Bahnfahrkarte oder ein Hotel zu reservieren. Insbesondere bezieht sich die Erfindung auf ein Sprachdialogsystem mit verbesserter Konversationsfähigkeit zwischen einem Benutzer und dem System.
  • Beschreibung der verwandten Technik
  • Die Sprache ist eine der natürlichsten und am leichtesten verwendeten Mensch-Maschine-Schnittstellen für die Wechselwirkung mit einem System, wie z. B. einem Computersystem. Es ist gewünscht worden, ein Sprachdialogsystem zu verwirklichen, mit dem ein Benutzer seine Absicht durch Wechselwirkung mit einem Computer durch Spracheingabe verwirklichen kann, z. B. um ein Ticket zu kaufen.
  • In "Development of Speaker Independent Speech Dialogues System TOSBURG", Aufsatz aus Acoustic Science of Japan, März 1992, Seiten 135 bis 136, ist ein herkömmliches Sprachdialogsystem erörtert worden. Die oben gekennzeichnete Veröffentlichung offenbart ein System, in dem eine in der Bedeutung abgeschlossene Wortgruppe als Spracheingabe genommen wird, wobei nach der Spracheingabe einer Wortgruppe das Wiederauffinden des Wortes, eine grammatische Bedeutungsanalyse (Erkennung und Verständnis), ein Anwendungsprozeß und die Sprachantwort ausgeführt werden, wobei durch das Wiederholen des vorangehenden Prozesses der Prozeß in der Art eines Dialogs fortschreitet.
  • In einer derartigen herkömmlichen Sprachdialogschnittstelle können jedoch die folgenden Probleme auftreten, so daß sie für den Benutzer nicht die Schnittstelle für einen leichten Gebrauch sein kann.
  • Erstens wird das System, bis eine Wortgruppe der Spracheingabe abgeschlossen ist, keine Anzeige oder Sprachantwort ausführen, so daß der Benutzer nicht das Ergebnis der Erkennung und des Verständnisses bestätigen kann. Deshalb kann der Benutzer nur nach dem Abschluß der Eingabe einen Fehler bei der Erkennung und dem Verständnis des Wortes erkennen. In einem derartigen Fall ist es häufig erforderlich, die ganze Wortgruppe abermals einzugeben. Dies verschlechtert die Ausführung einer Aufgabe deutlich.
  • Zweitens werden, wenn der Benutzer die Eingabe für einen oder zwei Teilsätze (oder Wörter) ausführt, während er den Inhalt der Sprache überlegt, ein oder mehrere Teilsätze als eine Wortgruppe genommen, um die Sprachausgabe als die Antwortnachrichten auf jede Eingabe von einem oder mehreren Teilsätzen zu veranlassen. Obwohl das Ergebnis der Erkennung und des Verständnisses im System bestätigt werden kann, sollte deshalb der Benutzer bei der Überlegung und der Spracheingabe unterbrochen werden.
  • Insbesondere bei einem zielgerichteten Dialogsystem, wie z. B. zum Kaufen des Flugtickets oder der Bahnfahrkarte oder um ein Hotelzimmer zu reservieren, sollte es naturgemäß und oft auftreten, daß der Benutzer die Sprachausgabe jeweils als ein kleines Segment der Wortgruppe ausführt, wobei er den Inhalt der Anzeige und/oder der vom System gegebenen Antwort berücksichtigt, anstatt die Spracheingabe der Reihe nach für eine verhältnismäßig lange Wortgruppe auszuführen. In einem derartigen Fall, wenn der Anwendungsprozeß im System für jedes einzelne oder mehrere Wörter ausgeführt wird, um die Sprachantwort zu geben, muß der Benutzer auf den Abschluß des Anwendungsprozesses und die Ausgabe der Sprachantwort warten, dies unterbricht seine Überlegungen und/oder Spracheingabe deutlich.
  • Aus GB-A-2 165 969 ist ein interaktives Dialogsystem mit einer Spracherkennungseinrichtung und einer Sprachsynthetisiereinrichtung bekannt. Das System enthält eine hierarchische intelligente Wissensbasis und einen Sprachprozessor, um eine von der Erkennungseinrichtung gelieferte Wort-Zeichenkette in eine semantische Darstellung der intelligenten Wissensbasis umzusetzen.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Mit Blick auf die Unbequemlichkeit im System des Standes der Technik ist es einer Aufgabe der vorliegenden Erfindung, ein Sprachdialogsystem zu schaffen, das, anstatt die Erkennung und das Verständnis sowie den Anwendungsprozeß bei jeder Wortgruppe der Spracheingabe durch einen Benutzer auszuführen, den Prozeß der Erkennung und des Verständnisses, den Anwendungsprozeß und die Spracheingabe parallel zur Sprache eines Benutzers ausführen kann, um eine verbesserte Konversationsfähigkeit und -eleganz zu schaffen, um eine hohe Aufgabenleistung zu erreichen.
  • Ist eine weitere Aufgabe der vorliegenden Erfindung, ein Sprachdialogsystem zu schaffen, das die Erkennung und das Verständnis, den Anwendungsprozeß und die Antwort gleichzeitig mit der Sprache des Benutzers durch die Steuerung der Ausführung des Anwendungsprozesses abhängig von einer Länge einer Pausenperiode ausführen kann, die zwischen den jeweiligen Teilsätzen bei der Spracheingabe durch den Benutzer eingefügt ist, wodurch es die Fähigkeit zur und die Eleganz der Konversation zwischen den Benutzer und dem System schafft.
  • Gemäß einem ersten Aspekt der Erfindung umfaßt ein Sprachdialogsystem:
  • eine Stimmenanalyseneinrichtung zum Umsetzen eines Stimmeneingangssignals in einen zeitseriellen Merkmalsvektor;
  • eine Stimmenerfassungseinrichtung zum Erfassen des vorderen Endes und des hinteren Endes einer Sprechperiode in dem Stimmeneingangssignal anhand des zeitseriellen Merkmalsvektors;
  • eine Erkennungs- und Verständniseinrichtung zum Übersetzen des zeitseriellen Merkmalsvektors in einen Bedeutungsausdruck für jede Sprechperiode;
  • eine Eingangsunterteilungseinrichtung zum Unterteilen der Bedeutungsausdruck-Zeichenkette in Teilzeichenketten, die jeweils in ihrer Bedeutung zusammengefaßt sind, und zum Ausgeben jeder Teilzeichenkette; und
  • eine Anwendungsausführungseinrichtung zum Ausführen eines entsprechenden Anwendungsprozesses für jede Teilzeichenkette der Bedeutungsausdrücke,
  • wobei die Prozesse in der Stimmenanalyseeinrichtung und in der Erkennungs- und Verständniseinrichtung gleichzeitig mit dem Stimmeneingang ausgeführt werden.
  • Andererseits kann die Anwendungsausführungseinrichtung voneinander verschiedene erste und zweite Prozesse für voneinander verschiedene Prozeßinhalte in bezug auf die von der Eingangsunterteilungseinrichtung eingegebene Teilzeichenkette der Bedeutungsausdrücke besitzen;
  • die Anwendungsausführungseinrichtung kann als Antwort auf die Teilzeichenkette der Bedeutungsausdrücke den ersten Prozeß für die empfangene Teilzeichenkette des Bedeutungsausdrucks ausführen;
  • die Anwendungsausführungseinrichtung führt dann, wenn nach Abschluß des ersten Prozesses die nächste Teilzeichenkette der Bedeutungsausdrücke nicht eingegeben werden kann, den zweiten Prozeß für die momentan verarbeitete Teilzeichenkette aus;
  • die Anwendungsausführungseinrichtung unterbricht dann, wenn die nächste Teilzeichenkette der Bedeutungsausdrücke während der Ausführung des zweiten Prozesses eingegeben werden kann, die Ausführung des zweiten Prozesses und führt den ersten Prozeß für die nächste Teilzeichenkette aus.
  • Das Sprachdialogsystem kann ferner eine Erkennungs- und Verständnisergebnis-Anzeigeeinrichtung umfassen, die den Bedeutungsausdruck zeitseriell empfängt und den empfangenen Bedeutungsausdruck zeitlich nacheinander anzeigt.
  • Die Anwendungsausführungseinrichtung kann den ersten Prozeß, der eine verhältnismäßig kurze Prozeßperiode besitzt, und einen zweiten Prozeß, der eine verhältnismäßig lange Periode dauert, umfassen.
  • Gemäß einem weiteren Aspekt der Erfindung umfaßt ein Sprachdialog-Verarbeitungsverfahren die folgenden Schritte:
  • (a) Umsetzen eines Stimmeneingangssignals in einen zeitseriellen Merkmalsvektor;
  • (b) Erfassen des vorderen Endes und des hinteren Endes einer Sprechperiode in dem Stimmeneingangssignal anhand des zeitseriellen Merkmalsvektors;
  • (c) Übersetzen des zeitseriellen Merkmalsvektors in einen Bedeutungsausdruck für jede Sprechperiode;
  • (d) Unterteilen der Bedeutungsausdruck-Zeichenkette in Teilzeichenketten, die jeweils in der Bedeutung zusammengefaßt sind, und Ausgeben jeder Teilzeichenkette; und
  • (e) Ausführen eines entsprechenden Anwendungsprozesses für jede Teilzeichenkette der Bedeutungsausdrücke, wobei die Schritte (a) und (c) gleichzeitig mit dem Spracheingang ausgeführt werden.
  • In diesem Fall ist es bevorzugt, daß der Schritt des Ausführens von Anwendungsprozessen voneinander verschiedene erste und zweite Prozesse für voneinander verschiedene Prozeßinhalte in bezug auf die Teilzeichenkette der eingegebenen Bedeutungsausdrücke enthält;
  • der Anwendungsausführungsschritt als Antwort auf die Teilzeichenkette der Bedeutungsausdrücke den ersten Prozeß für die empfangene Teilzeichenkette des Bedeutungsausdrucks ausführt;
  • der Anwendungsausführungsschritt dann, wenn die nächste Teilzeichenkette der Bedeutungsausdrücke bei Abschluß des ersten Prozesses nicht eingegeben wird, den zweiten Prozeß für die momentan verarbeitete Teilzeichenkette ausführt;
  • der Anwendungsausführungsschritt dann, wenn die nächste Teilzeichenkette der Bedeutungsausdrücke während der Ausführung des zweiten Prozesses eingegeben wird, die Ausführung des zweiten Prozesses unterbricht und den ersten Prozeß für die nächste Teilzeichenkette ausführt.
  • KURZBESCHREIBUNG DER ZEICHNUNG
  • Die vorliegende Erfindung wird aus der im folgenden gegebenen ausführlichen Beschreibung und aus der beigefügten Zeichnung der bevorzugten Ausführungsform der Erfindung vollständiger verständlich, die jedoch nicht als einschränkend für die Erfindung zu nehmen sind, sondern lediglich der Erklärung und dem Verständnis dienen.
  • In der Zeichnung ist:
  • Fig. 1 ein Blockschaltplan, der eine Konstruktion einer bevorzugten Ausführungsform eines Sprachdialogsystems gemäß der vorliegenden Erfindung zeigt;
  • Fig. 2 ein Ablaufplan, der den Betrieb der bevorzugten Ausführungsform des Sprachdialogsystems nach Fig. 1 zeigt;
  • Fig. 3 ein Zeitdiagramm, das den Betrieb eines Anwendungsausführungsabschnitts der bevorzugten Ausführungsform des Sprachdialogsystems nach Fig. 1 zeigt;
  • Fig. 4 ein Ablaufplan, der eine Alternative des Betriebs der bevorzugten Ausführungsform des Sprachdialogsystems nach Fig. 1 zeigt;
  • Fig. 5 ein Zeitdiagramm, das den alternativen Betrieb eines Anwendungsausführungsabschnitts der bevorzugten Ausführungsform des Sprachdialogsystems nach Fig. 1 zeigt;
  • Fig. 6 ein Blockschaltplan, der eine Konstruktion einer weiteren bevorzugten Ausführungsform eines Sprachdialogsystems gemäß der vorliegenden Erfindung zeigt;
  • Fig. 7 ein Ablaufplan, der den Betrieb der weiteren bevorzugten Ausführungsform des Sprachdialogsystems nach Fig. 6 zeigt;
  • Fig. 8 ein Zeitdiagramm, das den Betrieb eines Anwendungsausführungsabschnitts der weiteren bevorzugten Ausführungsform der Sprachdialogsystems nach Fig. 6 zeigt;
  • Fig. 9 ein Ablaufplan, der eine Alternative des Betriebs der weiteren bevorzugten Ausführungsform des Sprachdialogsystems nach Fig. 6 zeigt; und
  • Fig. 10 ein Blockschaltplan, der eine Konstruktion einer weiteren bevorzugten Ausführungsform eines Sprachdialogsystems gemäß der vorliegenden Erfindung zeigt.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • Die bevorzugten Ausführungsformen eines Sprachdialogsystems gemäß der vorliegenden Erfindung werden unter Bezugnahme auf die beigefügten Zeichnung ausführlich erörtert. Fig. 1 ist ein Blockschaltplan, der die bevorzugte Ausführungsform eines Sprachdialogsystems gemäß der vorliegenden Erfindung zeigt. Die gezeigte Ausführungsform des Sprachdialogsystems umfaßt einen Stimmenanalyseabschnitt 10, einen Stimmenerfassungsabschnitt 20, einen Erkennungs- und Verständnisabschnitt 30, einen Eingangsunterteilungsabschnitt 40 und einen Anwendungsausführungsabschnitt 50.
  • Der Stimmenanalyseabschnitt 10 führt eine Analyse des Eingangsstimmensignals aus und setzt es in einen zeitseriellen Merkmalsvektor um. Für die Analyse können ein Mel-Cepstrum-Verfahren, ein LPC-Analyseverfahren (lineares Vorhersageverfahren) usw. verwendet werden. Das Mel- Cepstrum-Verfahren ist z. B. in "Digital Speech Processing" der Tokai University Publication Association, Seiten 32 bis 96, erörtert. Beim Mel-Cepstrum-Verfahren wird eine Signalperiode aus einem digitalisierten Eingangssignal extrahiert, durch Fourier-Transformation eine Frequenzkennlinie jeder der Signalperioden abgeleitet, die Frequenzachse eines abgeleiteten charakteristischen Betrags in Anbetracht der akustischen Merkmale des Menschen in eine Mel-Skala umgesetzt und dann eine zeitliche Folge eines Merkmalsvektors durch inverse Fourier-Transformation abgeleitet.
  • Der Stimmenerfassungsabschnitt 20 verwendet Leistungsinformationen (den Pegel oder die Größe der Eingangsstimme) im vom Stimmenanalyseabschnitt 10 empfangenen zeitseriellen Merkmalsvektor, um das vordere Ende und das hintere Ende der Signalperiode des Eingangssignals zu erfassen. Das Verfahren der Stimmenerfassung, wie es oben dargelegt ist, ist in Yasunaga Niimi: "Voice Recognition", Kyoritsu Shuppan Kabushiki Kaisha, Seiten 68 bis 70, erörtert worden. In der Praxis wird ein vorderes Ende einer Periode, in der der Pegel des Stimmeneingangssignals auf einem Pegel gehalten wird, der größer oder gleich einem Schwellenpegel für eine Periode ist, die länger oder gleich einer gegebenen Periode ist, als die Position des vorderen Endes der Sprechperiode genommen. Andererseits wird ein Zeitpunkt, zu dem der Signalpegel unter den Schwellenpegel fällt, als das hintere Ende der Sprechperiode genommen, wenn der Pegel des Stimmeneingangssignals niedriger als der oder gleich dem Schwellenpegel für eine gegebene Zeitperiode gehalten wird.
  • Das vordere Ende und das hintere Ende der Sprechperiode, die durch den Stimmenerfassungsabschnitt 20 erfaßt wurden, werden zusammen mit dem zeitseriellen Merkmalsvektor in den Erkennungs- und Verständnisabschnitt 30 eingegeben. Der Erkennungs- und Verständnisabschnitt 30 erkennt den zeitseriellen Merkmalsvektor zwischen dem vorderen Ende und dem hinteren Ende der Sprechperiode, um ein Wort oder eine Wort-Zeichenkette abzuleiten, die der Sprechperiode entspricht. Andererseits wird das Wort oder die Wort-Zeichenkette im Ergebnis der Erkennung der Reihe nach in den Bedeutungsausdruck umgesetzt, der dessen bzw. deren Bedeutung anzeigt, um den Bedeutungsausdruck auszugeben.
  • Die jeweiligen Prozesse für die obige Stimmenanalyse, die Stimmenerfassung und die Erkennung werden synchron mit der Spracheingabe durch den Benutzer ausgeführt. Demzufolge wird sogar zu dem dazwischenliegenden Zeitpunkt der Spracheingabe eine Folge des Bedeutungsausdrucks sequentiell vom Erkennungsabschnitt 30 ausgegeben.
  • Um die Erkennung des Wortes oder der Wortfolge anhand der Folge des zeitseriellen Merkmalsvektors auszuführen, wird im Erkennungsabschnitt 30 der zeitserielle Vektor nach dem vorderen Ende mit den einleitend gespeicherten Standardmustern mehrerer Wörter verglichen, die Gegenstände der Erkennung sein sollen. Dann wird die Ähnlichkeit zum jeweiligen Zeitpunkt des Stimmeneingangssignals bestimmt, so daß das Wort oder die Wortfolge mit der höchsten Ähnlichkeit erhalten wird.
  • Ein derartiges Verfahren ist z. B. in der ungeprüften japanischen Gebrauchsmuster-Veröffentlichung Nr. 56-29292 mit dem Titel "Continuous Speech Recognition System" offenbart. Im offenbarten System wird eine durch einen endlichen Automaten, der die zu erkennenden Wortmuster beschreibt, ausgedrückte Grammatik hergestellt, wobei dann unter den von dieser Grammatik erzeugten Wortmustern das Wortmuster mit der höchsten Ähnlichkeit bestimmt wird, um dieses Wortmuster als das Ergebnis der Erkennung zu nehmen.
  • Alternativ offenbart "HMM Phoneme Recognition and Continuous Speech Recognition Using Expanded LR Gammer Analyzing Method", Aufsatz der Information Processing Society of Japan, Bd. Nr. 31, Seiten 472 bis 480 ein weiteres Verfahren. In dem offenbarten Verfahren wird die Verbindung der zu erkennenden Wortmuster entsprechend einer kontextfreien Grammatik hergestellt, die Wortmuster werden entsprechend der Grammatik abhängig von der Spracheingabe verbunden und die Ähnlichkeit der verbundenen Wortmuster und der Spracheingabe wird abgeleitet, um das Wortmuster als das Ergebnis der Erkennung auszuwählen, das die höchste Ähnlichkeit besitzt.
  • Es ist außerdem möglich, eine Wortsuche zu verwenden, um Wörter im zeitseriellen Merkmalsvektor sequentiell wiederzugewinnen.
  • Im Erkennungs- und Verständnisabschnitt kann z. B. als ein Verfahren zum Umsetzen des erkannten Wortes oder der erkannten Wort-Zeichenkette in den Bedeutungsausdruck ein in "Speaker Independent Continuous Speech Recognition based on Demi-Syllable Units", The Institute of Electronics, Information and Communication Engineering Technical Report, Nr. SP90-83, vorgeschlagenes Verfahren anwendbar sein. In dem offenbarten Verfahren wird einleitend eine Bedeutungstabelle hergestellt, die die Bedeutung der Wörter in der Grammatik und die Beziehung der Bedeutung der Wörter beschreibt, wobei dann der Bedeutungsausdruck erzeugt wird, indem das Wort und die Beziehung der Bedeutung zwischen den Wörtern in der Bedeutungstabelle in Bezug auf das Wort in der Wort-Zeichenkette als das Ergebnis der Erkennung aufgenommen wird.
  • Als eine Alternative ist es möglich, das Wort oder die Wort-Zeichenkette nicht in den Bedeutungsausdruck umzusetzen und das Wort oder die Wort-Zeichenkette als den Bedeutungsausdruck auszugeben.
  • Der durch den Erkennungs- und Verständnisabschnitt 30 erhaltende Bedeutungsausdruck wird sequentiell in den Eingangsunterteilungsabschnitt 40 eingegeben. Der Eingangsunterteilungsabschnitt 40 prüft eine Zeichenkette des Bedeutungsausdrucks des empfangenen Bedeutungsausdrucks. Wenn eine in der Bedeutung zugeordnete Teilzeichenkette des Bedeutungsausdrucks erhalten wird, gibt der Eingangsunterteilungsabschnitt 40 die Teilzeichenkette des Bedeutungsausdrucks sofort an den Anwendungsausführungsabschnitt aus.
  • Dafür kann ein Verfahren verwendet werden, in dem mehrere Sätze von Kombinationen des Bedeutungsausdrucks, deren Bedeutung vollständig ist, einleitend gespeichert sind, wobei zu einem Zeitpunkt, zudem einer der Sätze des Bedeutungsausdrucks auftritt, der entsprechende Satz des Bedeutungsausdrucks ausgegeben wird.
  • Alternativ ist es möglich, ein weiteres Verfahren zu verwenden, in dem Kombinationen aus Bedeutungsausdrücken, die eine niedrige Verbindung besitzen, einleitend gespeichert sind, wobei, wenn zwei Bedeutungsausdrücke mit niedriger Verbindung sequentiell in der Zeichenkette des Bedeutungsausdrucks auftreten, die Grenze der Perioden des Bedeutungsausdrucks dazwischen gesetzt wird, um die Teilzeichenkette des Bedeutungsausdrucks auszugeben, wie oben dargelegt ist.
  • Der Anwendungsausführungsabschnitt 50 empfängt vom Eingangsunterteilungsabschnitt 40 die Teilzeichenkette des Bedeutungsausdrucks. Zum gleichen Zeitpunkt wird in Bezug auf die Teilzeichenkette des Bedeutungsausdrucks ein einleitend für die Teilzeichenkette definierter Anwendungsprozeß ausgeführt. Dann wird das Ergebnis der Ausführung angezeigt oder als eine Sprachausgabe ausgegeben. Hier könnte die Anwendungsprozeß-Einrichtung einen Speicherungsprozeß des Eingangswerts und einen Zugriffsprozeß auf eine Datenbank in bezug auf die Eingangsdaten enthalten, obgleich sie nicht umfassend ist.
  • Die obigen Operationen werden gleichzeitig mit der Spracheingabe durch den Benutzer ausgeführt. Deshalb wird zu dem Zeitpunkt, zu dem die Sprache eingegeben wird, die in der Bedeutung zusammenzufassen ist, der Bedeutungsausdruck, der die Bedeutung ausdrückt, zu diesem Zeitpunkt zum Anwendungsausführungsabschnitt 50 übertragen. Demzufolge kann parallel zur Spracheingabe durch den Benutzer das Ergebnis des Prozesses durch die Anwendung angezeigt oder als die Sprachausgabe ausgegeben werden.
  • Fig. 2 zeigt einen Ablaufplan, der den Betrieb der obenerwähnten bevorzugten Ausführungsform des Sprachdialogsystems gemäß der vorliegenden Erfindung zeigt. In Fig. 2 wird zuerst im Stimmenanalyseabschnitt 10 die Eingangsstimme analysiert und in den zeitseriellen Merkmalsvektor umgesetzt (Schritt 201). Als nächstes wird im Stimmenerfassungsabschnitt 20 das vordere Ende des zeitseriellen Merkmalsvektors erfaßt (Schritt 202).
  • Dann beginnt gleichzeitig mit der Erfassung der Position des vorderen Endes des zeitseriellen Merkmalsvektors der Erkennungs- und Verständnisabschnitt 30 den Erkennungsprozeß. Im Erkennungs- und Verständnisabschnitt 30 wird der zeitserielle Merkmalsvektor erkannt, wobei das Wort oder die Wort-Zeichenkette als das Ergebnis der Erkennung erhalten wird. Das als das Ergebnis der Erkennung erhaltene Wort oder die als das Ergebnis der Erkennung erhaltene Wort-Zeichenkette wird dann in den Bedeutungsausdruck umgesetzt, der die Bedeutung des Wortes oder der Wörter darstellt, wobei die Ausgabe zeitseriell ausgegeben wird (Schritt 203). Als nächstes unterteilt der Eingangsunterteilungsabschnitt 40 den in ihn eingespeisten zeitseriellen Bedeutungsausdruck in in der Bedeutung zusammengefaßte Teilzeichenketten. Dann wird die unterteilte Teilzeichenkette zum Anwendungsausführungsabschnitt 50 ausgegeben (Schritt 204)
  • Im Anwendungsausführungsabschnitt 50 wird der einleitend definierte Anwendungsprozeß, der der eingegebenen Teilzeichenkette entspricht, ausgeführt. Außerdem wird bei Notwendigkeit das Anzeigen und/oder die Sprachantwort für das Ergebnis des Prozesses ausgeführt (Schritt 205). Der obige Prozeß wird wiederholt, bis das hintere Ende der zeitlichen Folge des Merkmalsvektors erfaßt wird (Schritt 206).
  • Das folgende ist der konkrete Betrieb der bevorzugten Ausführungsform des Sprachdialogsystems gemäß der vorliegenden Erfindung.
  • Hier wird die folgende Erörterung für die Anwendung in einem System zum Kaufen einer Bahnfahrkarte unter Verwendung des Spracherkennungssystems gemäß der Erfindung gegeben.
  • Fig. 3 zeigt ein Zeitdiagramm des konkreten Betriebes der bevorzugten Ausführungsform des Spracherkennungssystems der Erfindung. Es sollte klar sein, daß die durch dicke Linien gezeigten Abschnitte den Prozeß in den jeweiligen Abschnitten darstellen.
  • Wenn der Benutzer durch Sprache z. B. "two adults and one child for no-smoking seat, please" eingibt, werden vom Erkennungs- und Verständnisabschnitt 30 sechs Bedeutungsausdrücke "adult", "2", "child", "1", "no-smoking", "request" sequentiell ausgegeben. Dann werden derartige Bedeutungsausdrücke in den Eingangsunterteilungsabschnitt 40 eingegeben.
  • Anschließend prüft der Eingangsunterteilungsabschnitt 40 die Zeichenkette der empfangenen Bedeutungsausdrücke der Reihe nach. Nach dem Abschluß der Spracheingabe des Benutzers für "two adults" empfängt nämlich der Eingangsunterteilungsabschnitt 40 den Bedeutungsausdruck "adults" und "2" vom Erkennungs- und Verständnisabschnitt 30. Zum gleichen Zeitpunkt erhält der Eingangsunterteilungsabschnitt 40 die Kombination aus "adults" und "2" als einen Satz im Bedeutungsausdruck "two adults". Dann gibt der Eingangsunterteilungsabschnitt 40 diese Kombination als Teilzeichenkette zum Anwendungsausführungsabschnitt 50 aus.
  • Der Anwendungsausführungsabschnitt 50 speichert sofort, wenn "adult" und "2" empfangen werden, daß das angeforderte Element "ticket for adult" ist und daß die Anzahl der Fahrkarten "2" beträgt. Zum gleichen Zeitpunkt wird das Ergebnis auf dem Anzeigenschirm angezeigt.
  • Während dieses Augenblicks führt der Benutzer anschließend die Spracheingabe für "one child" aus. In bezug auf dieses findet ein ähnlicher Prozeß statt. Als Antwort auf die sequentielle Eingabe von "child" und "1" werden nämlich die Bedeutungsausdrücke "child" und "1" vom Erkennungs- und Verständnisabschnitt 30 in den Eingangsunterteilungsabschnitt 40 eingegeben. Der Eingangsunterteilungsabschnitt 40 erhält die Kombination aus "child" und "1" als einen Satz in der Bedeutung, um die Teilzeichenkette der Bedeutungsausdrücke zum Anwendungsausführungsabschnitt 50 auszugeben.
  • Der Anwendungsausführungsabschnitt 50 antwortet sofort auf die Eingabe von "child" und "1", um die Tatsache zu speichern, daß das angeforderter Element "ticket for child" ist, während die Anzahl "1" beträgt. Gleichzeitig zeigt der Anwendungsausführungsabschnitt das Ergebnis auf dem Anzeigeschirm an. Anschließend finden die gleichen Prozesse für "no-smoking" und "please" statt.
  • Wie daraus erkannt wird, werden bei der oben dargelegten bevorzugten Ausführungsform durch den Eingangsunterteilungsabschnitt 40 die vom Erkennungs- und Verständnisabschnitt 30 eingespeisten Bedeutungsausdrücke (Wörter) in der Bedeutung kombiniert und als die Teilzeichenkette aufgebaut, die in den Anwendungsverarbeitungsabschnitt 50 einzugeben ist. Dann werden in bezug auf jede Teilzeichenkette die Anwendungsverarbeitung und die Antwort ausgeführt. Demzufolge können der Erkennungs- und Verständnisprozeß, der Anwendungsprozeß und die Antwort auf die Spracheingabe gleichzeitig mit der Sprache des Benutzers ausgeführt werden.
  • Die Fig. 4 und 5 zeigen eine Modifikation des bevorzugten Prozesses, die durch die bevorzugten Ausführungsform des Sprachdialogsystems gemäß der vorliegenden Erfindung auszuführen ist. In der Modifikation ist der im Anwendungsausführungsabschnitt 50 auszuführende Anwendungsprozeß abhängig vom Inhalt der Prozesse einleitend als ein erster Prozeß und ein zweiter Prozeß definiert. Wenn der Satz der Bedeutungsausdrücke (die Teilzeichenkette) vom Eingangsunterteilungsabschnitt 40 empfangen wird, führt der Anwendungsausführungsabschnitt 50 anfangs den ersten Anwendungsprozeß aus. Falls keine nächste Eingabe des Bedeutungsausdrucks vom Eingangsunterteilungsabschnitt 40 ausgeführt wird, leitet der Anwendungsausführungsabschnitt 50 auf dem Abschluß des Prozesses die Ausführung des zweiten Anwendungsprozesses ein. Wenn andererseits der Eingangsunterteilungsabschnitt 40 auf dem Abschluß des ersten Anwendungsprozesses den nächsten Bedeutungsausdruck eingibt, führt der Anwendungsverarbeitungsabschnitt 50 den zweiten Anwendungsprozeß nicht aus. Wenn andererseits während der Ausführung der zweiten Anwendungsverarbeitung der nächste Bedeutungsausdruck vom Eingangsunterteilungsabschnitt 40 eingegeben wird, wird die Ausführung der zweiten Anwendungsverarbeitung sofort unterbrochen.
  • Der Betrieb im modifizierten Prozeß des Anwendungsausführungsabschnitts 50 ist in Fig. 4 in Form eines Ablaufplans veranschaulicht. Zuerst führt der Anwendungsausführungsabschnitt den ersten Anwendungsprozeß für die vom Eingangsunterteilungsabschnitt 40 eingespeiste Teilzeichenkette der Bedeutungsausdrücke aus (Schritt 401). Vor dem Abschluß des ersten Anwendungsprozesses führt der Anwendungsausführungsabschnitt 50 die Beurteilung aus, ob die nächste Teilzeichenkette der Bedeutungsausdrücke vom Eingangsunterteilungsabschnitt 40 eingegeben wird (Schritt 402). Falls die nächste Teilzeichenkette empfangen wird, wird der zweite Anwendungsprozeß für die momentan ausgeführte Teilzeichenkette nicht ausgeführt, wobei der erste Anwendungsprozeß für die nächste Teilzeichenkette ausgeführt wird.
  • Wenn die nächste Teilzeichenkette der Bedeutungsausdrücke vor dem Abschluß der momentanen Ausführung des ersten Anwendungsprozesses nicht vom Eingangsunterteilungsabschnitt 40 eingegeben wird, wie im Schritt 402 überprüft wird, wird der zweite Anwendungsprozeß für die momentan verarbeitete Teilzeichenkette ausgeführt (Schritt 403). Vor dem Abschluß des zweiten Verarbeitungsprozesses für die momentane Teilzeichenkette wird die Überprüfung ausgeführt, ob die nächste Teilzeichenkette vom Eingangsunterteilungsabschnitt 40 empfangen wird (Schritt 404). Falls die Eingabe der nächsten Teilzeichenkette im Schritt 404 beurteilt wird, wird die Ausführung des zweiten Anwendungsprozesses unterbrochen (Schritt 405), wobei der erste Anwendungsprozeß sofort ausgeführt wird. Wenn vor dem Abschluß des zweiten Anwendungsprozesses keine nächste Teilzeichenkette vom Eingangsunterteilungsabschnitt 40 eingegeben wird, wie im Schritt 404 überprüft wird, wird der zweite Anwendungsprozeß für die momentane Teilzeichenkette fortgesetzt. Wenn andererseits im Schritt 405 die Ausführung des zweiten Anwendungsprozesses unterbrochen wird, wird die Ausführung vor der Einleitung der Ausführung des zweiten Anwendungsprozesses für die nächste Teilzeichenkette wieder aufgenommen.
  • Der obige Prozeß für die Bedeutungsausdrücke wird wiederholt ausgeführt, bis die letzte Teilzeichenkette verarbeitet ist (Schritt 406).
  • Im Anwendungsausführungsabschnitt 50 in der modifizierten Ausführungsform wird ein Prozeß, der in einer verhältnismäßig kurzen Periode auszuführen ist, wie z. B. das Speichern des durch die Stimme eingegebenen Wertes, als der erste Anwendungsprozeß ausgeführt. Andererseits wird ein Prozeß, wie z. B. das Zugreifen auf eine Datenbank, der in bezug auf den durch die Stimme eingegebenen Bedeutungsausdruck eine verhältnismäßig lange Periode benötigt, als der zweite Anwendungsprozeß ausgeführt. Wenn dann ein Intervall zwischen den vom Eingangsunterteilungsabschnitt 40 ausgegebenen Bedeutungsausdrücken verhältnismäßig lang ist, wird der zweite Anwendungsprozeß ausgeführt, der eine verhältnismäßig lange Periode erfordert. Auf diese Weise können der Erkennungs- und Verständnisprozeß und der Anwendungsprozeß gleichzeitig mit der Sprache des Benutzers ausgeführt werden.
  • Fig. 5 ist ein Zeitdiagramm, das den konkreten Betrieb des modifizierten Prozesses zeigt. In Fig. 5 empfängt auf den Abschluß des ersten Anwendungsprozesses für die Spracheingabe "reserved seat" der Anwendungsausführungsabschnitt 50 keinen nächsten Bedeutungsausdruck. Deshalb wird für den Bedeutungsausdruck "reserved seat" der zweite Anwendungsprozeß ausgeführt.
  • Andererseits empfängt der Anwendungsausführungsabschnitt 50 bereits während der Ausführung des ersten Anwendungsprozesses für "two for each of adults and children" den nächsten Bedeutungsausdruck. Deshalb wird der zweite Anwendungsprozeß für den Bedeutungsausdruck "two for each of adults and children" nicht ausgeführt.
  • Außerdem wird auf den Abschluß des ersten Anwendungsprozesses für den Bedeutungsausdruck "no-smoking seat" der nächste Bedeutungsausdruck noch nicht empfangen. Deshalb wird der zweite Anwendungsprozeß für den Bedeutungsausdruck "no-smoking" eingeleitet. Während der Ausführung des zweiten Anwendungsprozesses für den Bedeutungsausdruck "no-smoking" wird jedoch der Bedeutungsausdruck "please" im Anwendungsausführungsabschnitt 50 empfangen. Dann wird der zweite Anwendungsprozeß für den Bedeutungsausdruck "no-smoking" für die Ausführung des ersten Anwendungsprozesses für den nächsten Bedeutungsausdruck "please" unterbrochen. Der zweite Anwendungsprozeß für den Bedeutungsausdruck "no-smoking", der einmal unterbrochen ist, wird vor der Ausführung des zweiten Anwendungsprozesses für den Bedeutungsausdruck "please" wiederaufgenommen.
  • Die Fig. 6 bis 8 zeigen eine weitere bevorzugte Ausführungsform des Sprachdialogsystems gemäß der vorliegenden Erfindung. Wie in Fig. 6 gezeigt ist, wird zu dem Zeitpunkt, zu dem der Stimmenerfassungsabschnitt 20 das vordere Ende der Sprechperiode im Eingangssignal erfaßt, ein Erfassungssignal für das vordere Ende an den Anwendungsausführungsabschnitt 50 ausgegebenen. Als Antwort auf das Erfassungssignal für das vordere Ende unterbricht der Anwendungsausführungsabschnitt 50 den zweiten Anwendungsprozeß für den momentan ausgeführten Bedeutungsausdruck oder er verhindert, daß der zweite Anwendungsprozeß eingeleitet wird.
  • Der Betrieb des Anwendungsverarbeitungsabschnitts 50 in der gezeigten Ausführungsform des Sprachdialogsystems gemäß der Erfindung wird unter Bezugnahme auf den Ablaufplan in Fig. 7 erörtert. Anfangs wird in bezug auf die vom Eingangsunterteilungsabschnitt 40 eingespeiste Teilzeichenkette des Bedeutungsausdrucks der erste Anwendungsprozeß ausgeführt (Schritt 701). Vor dem Abschluß der Ausführung des ersten Anwendungsprozesses führt der Anwendungsausführungsabschnitt 50 eine Beurteilung aus, ob das Erfassungssignal für das vordere Ende vom Stimmenerfassungsabschnitt 20 empfangen wird (Schritt 702). Falls das Erfassungssignal für das vordere Ende empfangen wird, wird der zweite Anwendungsprozeß für die momentanen ausgeführte Teilzeichenkette nicht ausgeführt, während der erste Anwendungsprozeß für die nächste Teilzeichenkette ausgeführt wird.
  • Wenn das Erfassungssignal a für das vordere Ende vor dem Abschluß der momentanen Ausführung des ersten Anwendungsprozesses nicht eingegeben und nicht empfangen wird, wie im Schritt 702 überprüft wird, wird der zweite Anwendungsprozeß für die momentanen verarbeitete Teilzeichenkette ausgeführt (Schritt 703). Vor dem Abschluß des zweiten Anwendungsprozesses für die momentane Teilzeichenkette wird eine Überprüfung ausgeführt, ob das Erfassungssignal a für das vordere Ende vom Stimmenerfassungsabschnitt 20 empfangen wird (Schritt 704). Falls das Erfassungssignal a für das vordere Ende empfangen wird, wird die Ausführung des zweiten Anwendungsprozesses unterbrochen (Schritt 705), wobei der erste Anwendungsprozeß sofort ausgeführt wird. Wenn das Erfassungssignal für das vordere Ende vor dem Abschluß des zweiten Anwendungsprozesses vom Stimmenerfassungsabschnitt 20 nicht eingegeben wird, wie im Schritt 704 überprüft wird, wird der zweite Anwendungsprozeß für die momentane Teilzeichenkette fortgesetzt. Wenn andererseits das Erfassungssignal für das vordere Ende während der Ausführung des zweiten Anwendungsprozesses empfangen wird, wird die Ausführung des zweiten Anwendungsprozesses vor der Einleitung der Ausführung des zweiten Anwendungsprozesses für die nächste Teilzeichenkette wiederaufgenommen.
  • Im Ergebnis können, wenn der Benutzer eine Spracheingabe mit eingefügten Pausen zwischen den Wörtern ausführt, der Erkennungs- und Verständnisprozeß, der Anwendungsprozeß und die Antwort gleichzeitig mit der Sprache des Benutzers ausgeführt werden. Während der Benutzer die Sprache unterbricht, kann außerdem der zweite Anwendungsprozeß, wie z. B. die Sprachantwort oder die anderen Prozesse, die eine verhältnismäßig lange Periode erfordern, ausgeführt werden. Dadurch wird die Spracheingabe durch die Ausführung des zweiten Anwendungsprozesses während des Intervalls der Spracheingabe niemals unterbrochen. Deshalb wird der Benutzer bei seiner Überlegung und der Spracheingabe niemals unterbrochen.
  • Fig. 8 zeigt ein Zeitdiagramm des konkreten Beispiels der Ausführungsform nach Fig. 6. Während der Ausführung des ersten Anwendungsprozesses für die Bedeutungsnachricht "two adult tickets" wird das nächste Erfassungssignal a1 für das vordere Ende für die nächste Spracheingabe empfangen, wobei der zweite Anwendungsprozeß für die Teilzeichenkette von "for two adults" nicht ausgeführt wird.
  • Zu dem Zeitpunkt, zu dem der erste Anwendungsprozeß für "for one child" abgeschlossen ist, wird das Erfassungssignal a1 für das vordere Ende noch nicht empfangen. Deshalb wird für den Bedeutungsausdruck "for one child" der zweite Anwendungsprozeß ausgeführt. Hier kann als das Ergebnis des zweiten Anwendungsprozesses die Sprachantwort zur Ermunterung der Spracheingabe für den Benutzer usw. ausgegeben werden. Dabei werden auf die Spracheingabe durch den Benutzer, abhängig von der Länge des zwischen den Teilsätzen eingefügten Intervalls, der Anwendungsprozeß und der Antwortprozeß im Anwendungsausführungsabschnitt 50 so gesteuert, daß der Erkennungs- und Verständnisprozeß, der Anwendungsprozeß und die Antwort gleichzeitig mit der Sprache des Benutzers ausgeführt werden können, um die Konversationsfähigkeit zu erweitern oder zu verbessern.
  • Fig. 9 zeigt eine Modifikation des bevorzugten Prozesses, der in einer weiteren Ausführungsform der vorliegenden Erfindung verwendet wird. Wie in Fig. 8 gezeigt ist, gibt in der gezeigten Ausführungsform der Stimmenerfassungsabschnitt 20 ein Erfassungssignal b für das hintere Ende aus. Der Eingangsunterteilungsabschnitt 40 erhält die Teilzeichenkette des Bedeutungsausdrucks, die dem Bedeutungsausdruck zugeordnet ist oder die im Bedeutungsausdruck zu gruppieren ist.
  • Wenn der Benutzer die Spracheingabe mit Überlegung des Inhalts der Sprache ausführt, tritt z. B. oft auf, daß der Benutzer die Spracheingabe "two for adults (Pause), one for child (Pause) for no-smoking seat please" ausführt. Es ist nämlich im hohen Grade möglich, daß die Position von (Pause) dem Trennungspunkt des unterteilten Bedeutungsausdrucks entspricht.
  • Wenn die Aufmerksamkeit auf das oben dargelegte Problem gelenkt wird, erlaubt die gezeigte Ausführungsform die Teilzeichenkette effektiv zu erzeugen, in der ein oder mehrere Bedeutungsausdrücke in der Bedeutung zusammengefaßt sind.
  • Fig. 9 ist ein Ablaufplan eines modifizierten Prozesses des in Fig. 7 veranschaulichten bevorzugten Prozesses, in dem der Betrieb des Eingangsunterteilungsabschnittes 40 gezeigt ist. Wenn anfangs der Bedeutungsausdruck vom Stimmenerfassungsabschnitt 20 in den Eingangsunterteilungsabschnitt 40 eingegeben wird (Schritt 901), prüft der Eingangsunterteilungsabschnitt 40, ob vom Stimmenerfassungsabschnitt 20 das Erfassungssignal b für das hintere Ende eingegeben wird (Schritt 902). Falls das Erfassungssignal b für das hintere Ende nicht eingegeben wird, wird vom Eingangsunterteilungsabschnitt 40 der nachfolgende Bedeutungsausdruck kontinuierlich empfangen. Auf den Empfang des Erfassungssignals b für das hintere Ende werden die vor der Eingabe des Erfassungssignals für das hintere Ende empfangenen Bedeutungsausdrücke als eine Teilzeichenkette ausgegeben (Schritt 903).
  • Der Eingangsunterteilungsabschnitt 40 muß nämlich nicht einleitend die die Kombination des Bedeutungsausdrucks betreffenden Informationen durch das Ausgeben der in der Bedeutung zusammengefaßten Teilzeichenkette setzen, um die Trennung der in der Bedeutung zusammengefaßten Teilzeichenkette zu erleichtern. Im Ergebnis dessen kann der Eingangsunterteilungsabschnitt den Ausgabeprozeß der Teilzeichenkette als die Gesamtheit der in der Bedeutung zugeordneten Bedeutungsausdrücke ausführen. Dies trägt zur Erlaubnis zum Ausführen des Anwendungsprozesses gleichzeitig mit der Spracheingabe durch den Benutzer bei.
  • Fig. 10 zeigt eine weitere Ausführungsform des Sprachdialogsystems gemäß der vorliegenden Erfindung. In der gezeigten Ausführungsform ist ein Erkennungs- und Verständnisergebnis-Anzeigeabschnitt 60 zum Anzeigen einer vom Erkennungs- und Verständnisabschnitt 30 ausgegebenen Zeichenkette des Bedeutungsausdrucks vorgesehen. Dadurch wird im Zusammenhang mit der Umsetzung der Spracheingabe in den Bedeutungsausdruck durch den Erkennungs- und Verständnisabschnitt 30 der Inhalt des Bedeutungsausdrucks auf dem Erkennungs- und Verständnisergebnis-Anzeigeabschnitt 60 angezeigt. Dadurch kann der Benutzer parallel zur Spracheingabe wissen, ob die Eingangssprache richtig erkannt wird. Demzufolge kann der Benutzer vor dem Ausführen der Prozesse im Eingangsunterteilungsabschnitt 40 und im Anwendungsausführungsabschnitt 50 Fehler bei der Erkennung der Spracheingabe bemerken, so daß er die Sprache unterbrechen oder erneut eingeben kann.
  • Weil der Erkennungs- und Verständnisprozeß, der Anwendungsprozeß und die Antwort gleichzeitig mit der Sprache des Benutzers ausgeführt werden können, kann, wie oben dargelegt ist, gemäß der vorliegenden Erfindung die Konversationsfähigkeit zwischen den Benutzer und dem System verbessert werden. Indem die Prozesse, die eine verhältnismäßig lange Periode erfordern, wie z. B. das zugreifen auf die Datenbank oder die Sprachantwort, ausgeführt werden, während der Benutzer die Sprache unterbricht (in den Pausen), wird außerdem der Benutzer niemals in seiner Spracheingabe unterbrochen, so daß die Spracheingabe und der Anwendungsprozeß reibungslos ausgeführt werden können.
  • Obwohl die Erfindung in bezug auf ihre beispielhafte Ausführungsform veranschaulicht und beschrieben worden ist, sollte es für den Fachmann selbstverständlich sein, daß die obigen und verschiedene andere Änderungen und Ergänzungen darin ausgeführt werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen, wie er durch die beigefügten Ansprüche definiert ist.

Claims (13)

1. Sprachdialogsystem, mit:
einer Stimmenanalyseneinrichtung (10) zum Umsetzen eines Stimmeneingangssignals in einen zeitseriellen Merkmalsvektor;
einer Stimmenerfassungseinrichtung (20) zum Erfassen des vorderen Endes und des hinteren Endes einer Sprechperiode in dem Stimmeneingangssignal anhand des zeitseriellen Merkmalsvektors;
einer Erkennungs- und Verständniseinrichtung (30) zum Übersetzen des zeitseriellen Merkmalsvektors in einen Bedeutungsausdruck für jede Sprechperiode;
einer Eingangsunterteilungseinrichtung (40) zum Unterteilen der Bedeutungsausdruck-Zeichenkette in Teilzeichenketten, die jeweils in ihrer Bedeutung zusammengefaßt sind, und zum Ausgeben jeder Teilzeichenkette; und
einer Anwendungsausführungseinrichtung (50) zum Ausführen eines entsprechenden Anwendungsprozesses für jede Teilzeichenkette der Bedeutungsausdrücke, wobei die Prozesse in der Stimmenanalyseeinrichtung (10) und in der Erkennungs- und Verständniseinrichtung (30) gleichzeitig mit dem Stimmeneingang ausgeführt werden.
2. Sprachdialogsystem nach Anspruch 1, wobei die Anwendungsausführungseinrichtung (50) voneinander verschiedene erste und zweite Prozesse für voneinander verschiedene Prozeßinhalte in bezug auf die von der Eingangsunterteilungseinrichtung (40) eingegebene Teilzeichenkette der Bedeutungsausdrücke besitzt;
die Anwendungsausführungseinrichtung (50) als Antwort auf die Teilzeichenkette der Bedeutungsausdrücke den ersten Prozeß für die empfangene Teilzeichenkette des Bedeutungsausdrucks ausführt;
die Anwendungsausführungseinrichtung (50) dann, wenn nach Abschluß des ersten Prozesses die nächste Teilzeichenkette der Bedeutungsausdrücke nicht eingegeben wird, den zweiten Prozeß für die momentan verarbeitete Teilzeichenkette ausführt;
die Anwendungsausführungseinrichtung (50) dann, wenn die nächste Teilzeichenkette der Bedeutungsausdrücke während der Ausführung des zweiten Prozesses eingegeben wird, die Ausführung des zweiten Prozesses unterbricht und den ersten Prozeß für die nächste Teilzeichenkette ausführt.
3. Sprachdialogsystem nach Anspruch 1, das ferner eine Erkennungs- und Verständnisergebnis-Anzeigeeinrichtung (60) umfaßt, die den Bedeutungsausdruck zeitseriell empfängt und den empfangenen Bedeutungsausdruck zeitlich nacheinander anzeigt.
4. Sprachdialogsystem nach Anspruch 2, wobei die Anwendungsausführungseinrichtung (50) den ersten Prozeß, der eine verhältnismäßig kurze Prozeßperiode besitzt, und einen zweiten Prozeß, der eine verhältnismäßig lange Periode dauert, umfaßt.
5. Sprachdialogsystem nach Anspruch 1, wobei
die Stimmenerfassungseinrichtung (20) ein Erfassungssignal für das vordere Ende an die Anwendungsausführungseinrichtung (50) ausgibt, wenn das vordere Ende der Sprechperiode erfaßt wird; und
die Anwendungsausführungseinrichtung (50) voneinander verschiedene erste und zweite Prozesse für voneinander verschiedene Prozeßinhalte in bezug auf die von der Eingangsunterteilungseinrichtung (40) eingegebene Teilzeichenkette der Bedeutungsausdrücke umfaßt, wobei die Anwendungsausführungseinrichtung auf das Erfassungssignal für das vordere Ende, das während der Ausführung des ersten Prozesses für die momentan verarbeitete Teilzeichenkette eingegeben wird, anspricht; und
die Anwendungsausführungseinrichtung (50) dann, wenn das Erfassungssignal für das vordere Ende während der Ausführung des zweiten Prozesses eingegeben wird, die Ausführung des zweiten Prozesses unterbricht und den ersten Prozeß für die nächste Teilzeichenkette ausführt.
6. Sprachdialogsystem nach Anspruch 5, das ferner eine Erkennungs- und Verständnisergebnis-Anzeigeeinrichtung (30) umfaßt, die den Bedeutungsausdruck zeitseriell empfängt und den empfangenen Bedeutungsausdruck zeitlich nacheinander anzeigt.
7. Sprachdialogsystem nach Anspruch 1, wobei
das Spracherfassungssignal ein Erfassungssignal für das hintere Ende an die Eingangsunterteilungseinrichtung (40) ausgibt, wenn das hintere Ende der Sprechperiode erfaßt wird; und
die Eingangsunterteilungseinrichtung (40) die vor der Eingabe des Erfassungssignals für das hintere Ende akkumulierten Bedeutungsausdrücke bei Empfang des Erfassungssignals für das hintere Ende als in der Bedeutung zusammengefaßte Teilzeichenkette ausgibt.
8. Sprachdialogsystem nach Anspruch 7, wobei die Anwendungsausführungseinrichtung (50) voneinander verschiedene erste und zweite Prozesse für voneinander verschiedene Prozeßinhalte in bezug auf die von der Eingangsunterteilungseinrichtung (40) eingegebene Teilzeichenkette der Bedeutungsausdrücke besitzt;
die Anwendungsausführungseinrichtung (50) als Antwort auf die Teilzeichenkette der Bedeutungsausdrücke den ersten Prozeß für die empfangene Teilzeichenkette des Bedeutungsausdrucks ausführt;
die Anwendungsausführungseinrichtung (50) dann, wenn die nächste Teilzeichenkette der Bedeutungsausdrücke nach Abschluß des ersten Prozesses nicht eingegeben wird, den zweiten Prozeß für die momentan verarbeitete Teilzeichenkette ausführt;
die Anwendungsausführungseinrichtung (50) dann, wenn die nächste Teilzeichenkette der Bedeutungsausdrücke während der Ausführung des zweiten Prozesses eingegeben wird, die Ausführung des zweiten Prozesses unterbricht und den ersten Prozeß für die nächste Teilzeichenkette ausführt.
9. Sprachdialogsystem nach Anspruch 7, das ferner eine Erkennungs- und Verständnisergebnis-Anzeigeeinrichtung (60) umfaßt, die den Bedeutungsausdruck zeitseriell empfängt und den empfangenen Bedeutungsausdruck zeitlich nacheinander anzeigt.
10. Sprachdialog-Verarbeitungsverfahren, das die folgenden Schritte umfaßt:
(a) Umsetzen eines Stimmeneingangssignals in einen zeitseriellen Merkmalsvektor;
(b) Erfassen des vorderen Endes und des hinteren Endes einer Sprechperiode in dem Stimmeneingangssignal anhand des zeitseriellen Merkmalsvektors;
(c) Übersetzen des zeitseriellen Merkmalsvektors in einen Bedeutungsausdruck für jede Sprechperiode;
(d) Unterteilen der Bedeutungsausdruck-Zeichenkette in Teilzeichenketten, die jeweils in der Bedeutung zusammengefaßt sind, und Ausgeben jeder Teilzeichenkette; und
(e) Ausführen eines entsprechenden Anwendungsprozesses für jede Teilzeichenkette der Bedeutungsausdrücke, wobei die Schritte (a) und (c) gleichzeitig mit dem Spracheingang ausgeführt werden.
11. Sprachdialog-Verarbeitungsverfahren nach Anspruch 10, wobei der Schritt des Ausführens von Anwendungsprozessen voneinander verschiedene erste und zweite Prozesse für voneinander verschiedene Prozeßinhalte in bezug auf die Teilzeichenkette der eingegebenen Bedeutungsausdrücke enthält;
der Anwendungsausführungsschritt als Antwort auf die Teilzeichenkette der Bedeutungsausdrücke den ersten Prozeß für die empfangene Teilzeichenkette des Bedeutungsausdrucks ausführt;
der Anwendungsausführungsschritt dann, wenn die nächste Teilzeichenkette der Bedeutungsausdrücke bei Abschluß des ersten Prozesses nicht eingegeben wird, den zweiten Prozeß für die momentan verarbeitete Teilzeichenkette ausführt;
der Anwendungsausführungsschritt dann, wenn die nächste Teilzeichenkette der Bedeutungsausdrücke während der Ausführung des zweiten Prozesses eingegeben wird, die Ausführung des zweiten Prozesses unterbricht und den ersten Prozeß für die nächste Teilzeichenkette ausführt.
12. Sprachdialog-Verarbeitungsverfahren nach Anspruch 10, ferner mit den folgenden Schritten:
Ausgeben eines Erfassungssignals für das vordere Ende an die Anwendungsausführungseinrichtung, wenn das vordere Ende der Sprechperiode erfaßt wird;
wobei der Anwendungsausführungsschritt voneinander verschiedene erste und zweite Prozesse für voneinander verschiedene Prozeßinhalte in bezug auf die von der Eingangsunterteilungseinrichtung eingegebene Teilzeichenkette der Bedeutungsausdrücke besitzt, wobei der Anwendungsausführungsschritt auf das Erfassungssignal für das vordere Ende, das während der Ausführung des ersten Prozesses für die momentan verarbeitete Teilzeichenkette eingegeben wird, anspricht; und
die Anwendungsausführungseinrichtung dann, wenn das Erfassungssignal für das vordere Ende während der Ausführung des zweiten Prozesses eingegeben wird, die Ausführung des zweiten Prozesses unterbricht und den ersten Prozeß für die nächste Teilzeichenkette ausführt.
13. Sprachdialog-Verarbeitungsverfahren nach Anspruch 12, das ferner die folgenden Schritte umfaßt:
Ausgeben eines Erfassungssignals für das hintere Ende bei Erfassung des hinteren Endes der Sprechperiode; und
Ausgeben der vor der Eingabe des Erfassungssignals für das hintere Ende akkumulierten Bedeutungsausdrücke als die in der Bedeutung zusammengefaßte Teilzeichenkette, wenn das Erfassungssignal für das hintere Ende der Sprechperiode eingegeben wird.
DE69427717T 1993-03-09 1994-03-09 Sprachdialogsystem Expired - Fee Related DE69427717T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5048085A JPH06259090A (ja) 1993-03-09 1993-03-09 音声対話システム

Publications (2)

Publication Number Publication Date
DE69427717D1 DE69427717D1 (de) 2001-08-23
DE69427717T2 true DE69427717T2 (de) 2002-06-13

Family

ID=12793491

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69427717T Expired - Fee Related DE69427717T2 (de) 1993-03-09 1994-03-09 Sprachdialogsystem

Country Status (4)

Country Link
US (1) US5671329A (de)
EP (1) EP0615228B1 (de)
JP (1) JPH06259090A (de)
DE (1) DE69427717T2 (de)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000507021A (ja) * 1997-01-09 2000-06-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ モジュール式会話構造に基づくような両面音声の形態における人間―機械会話を実行する方法および装置
JP2001034292A (ja) * 1999-07-26 2001-02-09 Denso Corp 単語列認識装置
DE60044521D1 (de) * 1999-02-16 2010-07-22 Yugen Kaisha Gm & M Sprache umwandlung gerät und verfahren
US6598018B1 (en) 1999-12-15 2003-07-22 Matsushita Electric Industrial Co., Ltd. Method for natural dialog interface to car devices
US20020169597A1 (en) * 2001-03-12 2002-11-14 Fain Systems, Inc. Method and apparatus providing computer understanding and instructions from natural language
US7574362B2 (en) * 2001-03-14 2009-08-11 At&T Intellectual Property Ii, L.P. Method for automated sentence planning in a task classification system
US7729918B2 (en) * 2001-03-14 2010-06-01 At&T Intellectual Property Ii, Lp Trainable sentence planning system
WO2002073598A1 (en) 2001-03-14 2002-09-19 At & T Corp. Method for automated sentence planning in a task classification system
US20030229491A1 (en) * 2002-06-06 2003-12-11 International Business Machines Corporation Single sound fragment processing
US20030115062A1 (en) * 2002-10-29 2003-06-19 Walker Marilyn A. Method for automated sentence planning
DE602004017955D1 (de) * 2004-01-29 2009-01-08 Daimler Ag Verfahren und System zur Sprachdialogschnittstelle
JP2006139134A (ja) * 2004-11-12 2006-06-01 Pioneer Electronic Corp 音声出力制御装置、音声出力制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
JP5739718B2 (ja) 2011-04-19 2015-06-24 本田技研工業株式会社 対話装置
JP2014191212A (ja) * 2013-03-27 2014-10-06 Seiko Epson Corp 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
CN106358059B (zh) * 2015-07-17 2020-04-07 腾讯科技(北京)有限公司 一种多媒体信息处理方法、设备及***
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US20170069309A1 (en) 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
JP6540414B2 (ja) 2015-09-17 2019-07-10 本田技研工業株式会社 音声処理装置および音声処理方法
JP6649200B2 (ja) * 2016-08-04 2020-02-19 日本電信電話株式会社 発話生成装置、方法、及びプログラム
JP6984474B2 (ja) 2018-02-14 2021-12-22 トヨタ自動車株式会社 情報処理装置および情報処理方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0175503A1 (de) * 1984-09-06 1986-03-26 BRITISH TELECOMMUNICATIONS public limited company Verfahren und Gerät zur Anwendung bei einem interaktiven Dialog
GB2165969B (en) * 1984-10-19 1988-07-06 British Telecomm Dialogue system
JPS63118975A (ja) * 1986-11-07 1988-05-23 Hitachi Ltd かな漢字変換装置
DE3643838A1 (de) * 1986-12-20 1988-06-30 Telefonbau & Normalzeit Gmbh Spracherkennungseinrichtung fuer dienste-integrierende kommunikationsanlagen, insbesondere fernsprechvermittlungsanlagen
US4974191A (en) * 1987-07-31 1990-11-27 Syntellect Software Inc. Adaptive natural language computer interface system
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
DE69232407T2 (de) * 1991-11-18 2002-09-12 Kabushiki Kaisha Toshiba, Kawasaki Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition

Also Published As

Publication number Publication date
US5671329A (en) 1997-09-23
JPH06259090A (ja) 1994-09-16
EP0615228A1 (de) 1994-09-14
EP0615228B1 (de) 2001-07-18
DE69427717D1 (de) 2001-08-23

Similar Documents

Publication Publication Date Title
DE69427717T2 (de) Sprachdialogsystem
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE2953262C2 (de)
DE69908254T2 (de) System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE60201262T2 (de) Hierarchische sprachmodelle
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69330427T2 (de) Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
DE69717899T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69220825T2 (de) Verfahren und System zur Spracherkennung
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE112014007123T5 (de) Dialogsteuersystem und Dialogsteuerverfahren
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE69519229T2 (de) Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee