DE69723449T2

DE69723449T2 - Verfahren und system zur sprache-in-sprache-umsetzung

Info

Publication number: DE69723449T2
Application number: DE69723449T
Authority: DE
Inventors: Bertil Lyberg
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1996-05-13
Filing date: 1997-04-08
Publication date: 2004-04-22
Anticipated expiration: 2017-04-09
Also published as: SE9601811L; NO318557B1; WO1997043756A1; EP0919052A1; SE9601811D0; NO985179L; SE506003C2; DK0919052T3; NO985179D0; EP0919052B1; DE69723449D1

Description

Die Erfindung betrifft ein Sprache-in-Sprache-Umwandlungssystem und ein Verfahren, die im Stande sind, den Dialekt von Sprachausgangssignalen an die empfangenen Spracheingangssignale anzupassen, und ein auf Sprache reagierendes Kommunikationssystem, das ein Sprache-in-Sprache-Umwandlungssystem einschließt und in Übereinstimmung mit einem Sprache-in-Sprache-Umwandlungsverfahren arbeitet.
Bei bekannten auf Sprache reagierenden Kommunikationssystemen wird die Sprachinformation, die in einer Datenbank gespeichert ist und verwendet wird, geeignete synthetisierte gesprochene Antworten auf Spracheingangssignale unter Verwendung eines Sprache-in-Sprache-Umwandlungssystem zu liefern, normalerweise in einem Dialekt reproduziert, der einem nationalen Standarddialekt entspricht. Wenn es beträchtliche Unterschiede zwischen dem Dialekt der Spracheingangssignale und dem nationalen Standarddialekt gibt, kann es sich so als schwierig in gewissen Umständen für die Datenbank von bekannten auf Sprache reagierenden Kommunikationssystemen erweisen, empfangene Sprachinformation zu interpretieren, d. h. die Spracheingangssignale zu interpretieren. Es kann auch schwierig sein für die Person, die die Spracheingangssignale macht, voll die gesprochene Antwort zu verstehen. Sogar wenn solche Antworten für einen Empfänger verständlich sind, wäre es benutzerfreundlicher, wenn der Dialekt der gesprochenen Antwort der selbe ist wie der Dialekt des damit zusammenhängenden Spracheingangssignals.
Auch bei der künstlichen Wiedergabe einer gesprochenen Sprache ist es notwendig, daß die Sprache natürlich und mit der richtigen Akzentuierung reproduziert wird. Insbesondere kann die Bedeutung eines Wortes stark unterschiedliche Bedeutungen in Abhängigkeit von der Sprachbetonung haben. Auch kann der Bedeutung des einen und selben Satzes eine beträchtliche Signifikanz in Abhängigkeit davon gegeben werden, wo die Betonung angeordnet wird. Außerdem bestimmt das Betonen von Sätzen oder Teilen derselben Abschnitte, die in der Sprache hervorgehoben werden und die wichtig bei der Bestimmung der genauen Bedeutung der gesprochenen Sprache sein können.
Die Notwendigkeit, daß künstlich produzierte Sprache so natürlich wie möglich sein soll und die richtige Betonung hat, ist von besonderer Bedeutung bei auf Sprache reagierenden Kommunikationseinrichtungen und/oder Systemen, die Sprache in unterschiedlichen Zusammenhängen erzeugen. Mit bekannten auf Sprache reagierenden Anordnungen ist die reproduzierte Sprache schwierig zu verstehen und zu interpretieren. Es besteht daher eine Notwendigkeit für ein Sprache-in-Sprache-Umwandlungssystem, in dem die künstlichen Sprachausgangssignale natürlich sind, die richtige Betonung haben und leicht verständlich sind.
Bei Sprachen, die gut entwickelte Satzakzentbetonungen und/oder Tonhöhen in individuellen Worten haben, ist die Identifizierung der natürlichen Bedeutung der Worte/Sätze sehr schwierig. Die Tatsache, daß Betonungen falsch angeordnet werden können, erhöht das Risiko der falschen Interpretation, oder daß die Bedeutung für die zuhörende Partei völlig verloren geht.
Es sind verschiedene Typen von Spracherkennungssystemen bekannt. Es ist bei solchen Systemen üblich, daß die Spracherkennungsausrüstung trainiert wird, um Sprache von einer großen Anzahl von Personen zu erkennen. Auch das Sprachtraining folgt einem besonderen Dialekt oder Dialekten. Die Information, die durch diesen Vorgang gesammelt wird, wird dann durch das System verwendet, um ankommende Sprache zu interpretieren. Ein solches System kann daher normalerweise Dialektabwandlungen der Sprache nicht verstehen, die außerhalb des be sonderen Dialekts/der besonderen Dialekte liegen, für die das System trainiert worden ist.
Als Beispiel offenbart Dokument WO-A-96-00962 ein Spracherkennungssystem zum Erkennen von Dialektvariationen in einer Sprache.
In Sprachen mit Tonwortakzenten und Tonsprache bildet das Intonationsmuster der Sprache einen sehr wichtigen Teil beim Verständnis der Sprache, bekannte Systeme berücksichtigen jedoch nicht diese Sprachcharakteristiken. Als Konsequenz hiervon kann die Erkennung von Worten und Phrasen bei bekannten Spracherkennungssystemen Anlaß zu Fehlinterpretationen geben. Die bekannten Spracherkennungssysteme, die dazu ausgebildet sind, Dialekte bei der Sprache zu berücksichtigen, sind besonders für einen speziellen Dialekt maßgeschneidert und sind daher nicht dazu ausgebildet, unterschiedliche Dialekte in einer Sprache zu erkennen.
In der Zukunft werden Spracherkennungsausrüstungen in immer größeren Ausmaß bei sehr vielen verschiedenen Anwendungen verwendet werden, wo die Notwendigkeit besteht, imstande zu sein, unterschiedliche Dialekte in einer Sprache zu erkennen. Die Dialektvariationen in einer Sprache sind in der Vergangenheit schwierig zu bestimmen gewesen, und als Konsequenz hiervon wurden Schwierigkeiten beim Erhalten eines richtigen Verständnisses von künstlich erzeugter Sprache erfahren. Darüber hinaus können die bekannten Spracherkennungsausrüstungen im allgemeinen nicht mit unterschiedlichen Sprachen verwendet werden.
Obwohl bekannte Spracherkennungssysteme dazu ausgebildet sind, durch Training einen besonderen Dialekt in einer Sprache zu erkennen, ist es für solche Systeme nicht möglich, unterschiedliche Dialekte in dieser Sprache oder Dialekte in unterschiedlichen Sprachen unter Verwendung derselben Spracherkennungsausrüstung ohne weiteres Training zu erkennen.
Die künstliche Interpretation von Sprache ist daher schwierig, wenn nicht sogar unmöglich mit bekannten Spracherkennungsausrüstungen durchzuführen gewesen, und zwar aufgrund der Unfähigkeit solcher Systeme, Dialektvariationen zu erkennen.
Außer den technischen Problemen, Sprache korrekt zu interpretieren, ist es bei Spracherkennungs/Sprachsteuersystemen notwendig, daß die verbalen Anweisungen oder Befehle richtig interpretiert werden, da es sonst nicht möglich wäre, geeignete Reaktionen oder richtige Steuerung unterschiedlicher Typen von Ausrüstungen zu liefern.
Um diese Schwierigkeiten zu überwinden, wäre es für ein auf Sprache reagierendes Kommunikationssystem notwendig, daß es die empfangene Sprachinformation unabhängig vom Dialekt zu interpretieren und den Dialekt der Sprachausgangssignale an denjenigen der entsprechenden Spracheingangssignale anzupassen imstande ist. Um imstande zu sein, die Bedeutung von einzelnen Worten oder Phrasen in unzweideutiger Weise in einem gesprochenem Satz zu verstehen, wäre es auch notwendig für die Sprache in Sprachewandler, die in einem auf Sprache reagierenden Kommunikationssystem verwendet werden, daß sie imstande sind, Betonungen in der gesprochenen Sequenz zu bestimmen und zu berücksichtigen.
Es ist eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren für Sprache-in-Sprache-Umwandlung zu schaffen, die imstande sind, den Dialekt der Sprachausgangssignale an denjenigen der entsprechenden Spracheingangssignale anzupassen.
Es ist ein weiteres Ziel der vorliegenden Erfindung, ein System und ein Verfahren für Sprache-in-Sprache-Umwandlung zu schaffen, die dazu ausgebildet sind, Spracheingangssignale und insbesondere den Dialekt, Satzakzent und Betonung von gesprochenen Sequenzen unter Verwendung der Fundamentalkurve der gesprochenen Sequenz zu erkennen und zu interpretieren.
Es ist ein weiteres Ziel der vorliegenden Erfindung, ein auf Sprache reagierendes Kommunikationssystem einschließlich eines Sprache-in-Sprache-Umwandlungssystems zu schaffen, das imstande ist, den Dialekt von Sprachausgangssignalen an denjenigen von entsprechenden Spracheingangssignalen anzupassen.
Die Erfindung, wie sie in den Ansprüchen 1 bis 26 beansprucht ist, schafft ein Sprache-in-Sprache-Umwandlungssystem zum Schaffen von gesprochenen Antworten auf Spracheingänge in das System am Ausgang desselben einschließlich Spracherkennungsmittel für die Eingangssprache; Interpretationsmittel zum Interpretieren des Inhalts des erkannten eingegebenen Sprachsignals; und eine Datenbank, die Sprachinformationsdaten für Verwendung bei der Formulierung der gesprochenen Antworten enthält, wobei der Ausgang der Interpretationsmittel dazu verwendet wird, Zugang zur Datenbank zu machen und Sprachinformationsdaten von derselben zu erhalten, dadurch gekennzeichnet, daß das System weiter Extraktionsmittel zum Extrahieren von Prosodieinformation von der eingegebenen Sprache; Mittel zum Erhalten von Dialektinformation von der Prosodieinformation; und Text-zu-Sprache-Umwandlungsmittel einschließt, um die Sprachinformationsdaten, die von der Datenbank erhalten sind, in eine gesprochene Antwort unter Verwendung der Dialektinformation umzuwandeln, wobei der Dialekt der gesprochenen Antwort an denjenigen der eingegebenen Sprache angepaßt ist.
Die Spracherkennungsmittel können dazu ausgebildet sein, eine Anzahl von Phonemen von einem Segment der eingegebenen Sprache zu identifizieren und die Phoneme zu interpretieren, und zwar als mögliche Worte oder Wortkombinationen, um ein Modell der Sprache einzurichten, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster für die Sprache der eingegebenen Sprache hat.
Die Prosodieinformation, die von der eingegebenen Sprache extrahiert wird, ist vorzugsweise die Fundamentaltonkurve der eingegebenen Sprache. In diesem Falle schließen die Mittel zum Erhalten von Dialektinformation von der Prosodieinformation erste Analysiermittel zum Bestimmen des Intonationsmusters des Fundamentaltons der eingegebenen Sprache und damit der Maximal- und Minimal-Werte der Fundamentalkurve und ihrer entsprechenden Stellen; zweite Analysiermittel zum Bestimmen des Intonationsmusters der Fundamentaltonkurve des Sprachmodells und dadurch der maximalen und minimalen Werte der Fundamentaltonkurve und ihrer entsprechenden Positionen; Vergleichermittel zum Vergleichen der Intonationsmuster der eingegebenen Sprache mit dem Intonationsmuster des Sprachmodells, um einen Zeitunterschied zwischen dem Auftreten der Maximal- und Minimal-Werte der Fundamentalkurve der ankommenden Sprache in Bezug auf die Maximal- und Minimal-Werte der Fundamentalkurve des Sprachmodells zu bestimmen, wobei die identifizierte Zeitdifferenz Dialektcharakteristiken der eingegebenen Sprache anzeigt, ein. Die Zeitdifferenz kann in Bezug auf einen Intonationsmusterbezugspunkt, z. B. den Punkt, an dem eine Konsonanten/Vokalgrenze auftritt, bestimmt werden.
Das Sprache-in-Sprache-Umwandlungssystem kann Mittel zum Erhalten von Information über Satzakzente von der Prosodieinformation enthalten. In diesem Falle schließt das Spracherkennungssystem Prüfmittel ein, um lexikalisch die Worte im Sprachmodell zu überprüfen und um syntaktisch die Phrasen im Sprachmodell zu prüfen, wobei die Worte und Phrasen, die linguistisch nicht möglich sind, vom Sprachmodell ausgeschlossen werden. Die Prüfmittel sind bei dieser Anordnung dazu ausgebildet, die Orthographie und phonetische Transkription der Worte im Sprachmodell zu überprüfen, wobei die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation des Typs betonter Silben und Information einschließt, die sich auf den Ort des sekundären Akzents bezieht. Die Akzentinformation kann sich z. B. auf den tonalen Wortakzent I und Akzent II beziehen.
Die Satzakzentinformation und/oder die Satzbetonung können vorteilhafterweise bei der Interpretation des Inhalts der erkannten Eingangssprache verwendet werden.
Das Sprache-in-Sprache-Umwandlungssystem kann Dialogverwaltungssysteme zum Verwalten eines Dialogs mit der Datenbank einschließen, welcher Dialog durch die Interpretationsmittel initiiert wird. Bei einer bevorzugten Ausführungsform führt der Dialog mit der Datenbank zur Anwendung von Sprachinformationsdaten auf die Text-zu-Sprache-Umwandlungsmittel.
Die Erfindung schafft auch in einem auf Sprache reagierenden xommunikationssystem ein Verfahren, eine gesprochene Antwort auf ein Spracheingangssignal in das System zu schaffen, welche Antwort einen Dialekt hat, der denjenigen des Spracheingangssignals angepaßt ist, wobei das Verfahren die Schritte aufweist, die Eingangssprache zu erkennen und zu interpretieren und die Interpretation zu verwenden, Sprachinformationsdaten von einer Datenbank für Verwendung bei der Formulierung der gesprochenen Antwort zu erhalten, dadurch gekennzeichnet, daß das Verfahren weiter die Schritte aufweist, Prosodieinformation von der eingegebenen Sprache zu extrahieren, Dialektinformation von der Prosodieinformation zu erhalten und Sprachinformationsdaten, die von der Datenbank erhalten werden, in die gesprochene Antwort unter Verwendung der Dialektinformation umzuwandeln.
Die Erkennung und Interpretation der eingegebenen Sprache schließt die Schritte ein, eine Anzahl von Phonemen von einem Segment der eingegebenen Sprache zu identifizieren und die Phoneme als mögliche Worte oder Wortkombination zu interpretieren, um ein Modell der Sprache einzurichten, wobei das Sprachmodell Wort- und Satzakzente entsprechend einem standardisierten Muster für die Sprache der eingegebenen Sprache hat.
Bei einem bevorzugten Verfahren ist die Prosodieinformation, die von der eingegebenen Sprache extrahiert wird, die Funda mentaltonkurve der eingegebenen Sprache. In diesem Falle schließt das Verfahren der vorliegenden Erfindung die Schritte ein, das Intonationsmuster des Fundamentaltons der eingegebenen Sprache zu bestimmen und dadurch die Maximal- und Minimal-Werte der Fundamentaltonkurve und ihre entsprechenden Positionen zu bestimmen; das Intonationsmuster der Fundamentalkurve eines Sprachmodells und dabei die Maximal- und Minimal-Werte der Fundamentaltonkurve und ihrer entsprechenden Positionen zu bestimmen; das Intonationsmuster der eingegebenen Sprache mit dem Intonationsmuster des Sprachmodells zu vergleichen, um eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimal-Werte der Fundamentaltonkurven der ankommenden Sprache in Bezug auf die Maximal- und Minimal-Werte der Fundamentalkurve des Sprachmodells zu identifizieren, wobei die identifizierte Zeitdifferenz für Dialektcharakteristiken der eingegebenen Sprache typisch ist bzw. diese anzeigt. Die Zeitdifferenz kann in Bezug auf einen Intonationsmusterbezugspunkt, z. B. den Punkt bestimmt werden, an dem die Konsonant/Vokalgrenze auftritt.
Das Verfahren der vorliegenden Erfindung kann den Schritt aufweisen, Information über Satzakzente von der Prosodieinformation zu erhalten. In Übereinstimmung mit diesem Verfahren werden die Worte im Sprachmodell lexikalisch überprüft, und die Phrasen im Sprachmodell werden syntaktisch überprüft, wobei die Worte und Phrasen, die linguistisch nicht möglich sind, von dem Sprachmodell ausgeschlossen werden. Auch kann in Übereinstimmung mit diesem Verfahren die Orthographie und phonetische Transkription der Worte des Sprachmodells überprüft werden, wobei die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation des Typs betonter Silben und Informationen bezüglich des Ortes der Sekundärakzents einschließt. Die Akzentinformation kann sich auf den tonalen Wortakzent I und Akzent II beziehen.
In Übereinstimmung mit dem Verfahren der vorliegenden Erfindung können Satzakzentinformation und/oder Satzbetonung bei der Interpretation des Inhalts der erkannten eingegebenen Sprache verwendet werden.
Das Verfahren der vorliegenden Erfindung kann den Schritt einschließen, einen Dialog mit einer Datenbank zu initiieren, um Sprachinformationsdaten zum Formulieren der gesprochenen Antwort zu erhalten, wobei der Dialog initiiert wird nach Interpretation der eingegebenen Sprache. Der Dialog mit der Datenbank kann zur Anwendung der Sprachinformationsdaten auf Text-zu-Sprache-Umwandlungsmittel führen.
Die Erfindung liefert weiter ein auf Sprache reagierendes Kommunikationssystem, das ein Sprache-in-Sprache-Umwandlungssystem einschließt, wie es in den vorstehenden Absätzen ausgeführt wurde, oder verwendet ein Verfahren, wie es in den vorstehenden Absätzen aufgeführt wurde, um eine gesprochene Antwort auf Sprache zu liefern, die in das System eingegeben ist. Im wesentlichen bestehen die charakteristischen Merkmale des Sprache-in-Sprache-Umwandlungssystems und des Verfahrens gemäß der vorliegenden Erfindung in folgendem:

– Prosodieinformation wird von Sprache extrahiert, die dem Eingang des Systems zugeführt wird, und durch das Verfahren gehandhabt;
– die Prosodieinformation ist in der Form der Fundamentaltonkurve der eingegebenen Sprache;
– die Fundamentalkurve wird verwendet, um Dialekt-, Satzakzent- und Satz- Betonungsinformation für die eingegebene Sprache zu erhalten;
– der Satzakzent und die Betonungsinformation werden bei der Interpretation der eingegebenen Sprache verwendet, wobei das Ergebnis der Interpretation verwendet wird, um Sprachinformationsdaten von einer Datenbank zu erhalten, die bei der Formulierung von Sprachantworten auf die Spracheingänge verwendet wird; und
– die Dialektinformation wird verwendet, um sicherzustellen, daß die Sprachantworten auf die Spracheingänge einen Dialekt haben, der an denjenigen der Spracheingänge angepaßt ist.

Die vorstehenden und andere Merkmale der vorliegenden Erfindung werden besser aus der folgenden Beschreibung unter Bezugnahme auf die einzige Figur der beigefügten Zeichnungen verstanden werden, die in Form eine Blockdiagramms ein Sprache-in-Sprache-Umwandlungssystem der Erfindung darstellt.
Man wird aus der einzigen Figur der beigefügten Zeichnungen ersehen, daß ein Sprache-in-Sprache-Umwandlungssystem der Erfindung an ihrem Eingang 1 eine Spracherkennungseinheit 2 und eine Extraktionseinheit 3 zum Extrahieren von Prosodieinformation von der Sprache einschließt, die in den Systemeingang 1 eingegeben ist, d. h. die Fundamentaltonkurve der eingegebenen Sprache. Es werden also Spracheingänge, die an den Eingang 1 angelegt werden, gleichzeitig an die Einheiten 2 und 3 angelegt.
Der Ausgang der Spracherkennungseinheit 2 und ein Ausgang der Extraktionseinheit 3 sind mit getrennten Eingängen der Interpretationseinheit 4 verbunden, deren Ausgang mit einer Datenbankverwaltungseinheit 5 verbunden ist. Die Datenbankverwaltungseinheit 5, die ausgebildet ist für Zweiwegkommunikation mit einer Datenbank 6, ist an ihrem Ausgangsende mit dem Eingang eines Text-zu-Sprache-Umwandlers verbunden. Der Dialog zwischen der Datenbank 6 und der Datenbankverwaltungseinheit 5 kann durch irgendeine bekannte Datenbankkommunikationssprache, z. B. SQL (Structured Query Language, strukturierte Abfragesprache) bewirkt werden. Das Ausgangssignal des Text-zu-Sprache-Umwandlers 7 liefert ein synthetisiertes Sprachausgangssignal an das Sprache-in-Sprache-Umwandlungs-system.
Wie dies in der einzigen Figur der Zeichnungen gezeigt ist, ist ein weiterer Ausgang der Extraktionseinheit 3 mit dem Eingang einer Prosodieanalysiereinheit 8 verbunden, die für Zweiwegkommunikation mit dem Text-zu-Sprache-Umwandler ausgebildet ist. Die Prosodieanalysiereinheit 8 ist dazu ausgebildet, als Teil des Text-zu-Sprache-Umwandlungsvorgangs des Umwandlers 7 die Prosodieinformation, d. h. die Fundamentalkurve der synthetisierten Sprache zu analysieren und irgendwelche notwendigen Korrekturen am Intonationsmuster der synthetisierten Sprache in Übereinstimmung mit der Dialektinformation vorzunehmen, die von der eingegebenen Sprache extrahiert worden ist. Der Dialekt des synthetisierten Sprachausgangsignals des Sprache-in-Sprache-Umwandlungssystem wird daher an denjenigen der eingegebenen Sprache angepaßt sein.
Man wird daher aus dem Vorstehenden erkennen, daß die vorliegende Erfindung dazu ausgebildet ist, eine gesprochene Antwort auf eine in das Sprache-in-Sprache-Umwandlungssystem eingegebene Sprache zu liefern, die einen Dialekt hat, die demjenigen der eingegebenen Sprache angepaßt ist, und daß dieser Umwandlungsvorgang die Schritte aufweist, die eingegebene Sprache zu erkennen und zu interpretieren, die Interpretation zu verwenden, um Sprachinformationsdaten von einer Datenbank für Verwendung bei der Formulierung der gesprochenen Antwort zu erhalten, Prosodieinformation von der eingegebenen Sprache zu extrahieren, Dialektinformation von der Prosodieinformation zu erhalten und die Sprachinformationsdaten, die von der Datenbank erhalten sind, in die gesprochene Antwort unter Verwendung der Dialektinformation umzuwandeln. Die Art und Weise, in der dies bewirkt werden kann, soll in den folgende Absätzen ausgeführt werden.
In der Praxis werden die Spracheingaben in das Sprache-in-Sprache-Umwandlungssystem, die viele Formen haben können, z. B. Anforderungen auf Information über besondere Themen wie z. B. Bank- oder Telefondienste oder allgemeine Anfragen betreffend solcher Dienste, an den Eingang 1 und dadurch an die Eingänge der Einheiten 2 und 3 angelegt.
Die Spracherkennungseinheit 2 und die Interpretationseinheit 4 sind dazu ausgebildet, in einer für den Fachmann wohlbekannten Art die Spracheingänge in das System zu erkennen und zu interpretieren. Die Spracherkennungseinheit 2 kann z. B. arbeiten, indem sie ein Hidden-Markov-Modell oder ein äquivalentes Sprachmodell verwendet. Im wesentlichen besteht die Funktion der Einheiten 2 und 4 darin, Spracheingangssignale in das System in eine Form umzuwandeln, die eine treue Darstellung des Inhalts der Spracheingänge ist und für Eingabe in den Eingang der Datenbankverwaltungseinheit 5 geeignet ist. Anders gesagt muß der Inhalt der Textinformationsdaten am Ausgang der Interpretationseinheit 4 eine genaue Darstellung des Spracheingangssignals sein und durch die Datenbankverwaltungseinheit 5 verwendbar sein, um Zugriff zu nehmen und Sprachinformationsdaten von der Datenbank 6 zu extrahieren für die Verwendung der Formulierung der synthetisierten gesprochenen Antwort auf das Spracheingangssignal. In der Praxis würde dieser Vorgang im wesentlichen durch Identifizieren einer Anzahl von Phonemen von einem Segment der eingegebenen Sprache bewirkt werden, die in Allophonstränge kombiniert werden, wobei die Phoneme als mögliche Worte oder Wortkombinationen interpretiert werden, um ein Modell der Sprache einzurichten. Das eingerichtete Sprachmodell wird Wort- und Satzakzente gemäß einem standardisierten Muster für die Sprache der eingegebenen Sprache haben.
Die Information, die die erkannten Worte und Wortkombinationen betrifft, die durch die Spracherkennungseinheit 2 erzeugt wird, kann in der Praxis sowohl lexikalisch (unter Verwendung eines Lexikons mit Orthographie und Transkription) oder syntaktisch geprüft werden. Der Zweck dieser Überprüfungen besteht darin, irgendwelche Worte zu identifizieren und auszuschließen, die in der betreffenden Sprache nicht existieren, und/oder irgendwelche Phrasen auszuschließen, deren Syntax nicht der betreffenden Sprache entspricht.
In Übereinstimmung mit der vorliegenden Erfindung stellt die Spracherkennungseinheit 2 also sicher, daß nur jene Worte und Wortkombinationen, die als sowohl lexikalisch als auch syntaktisch als annehmbar befunden werden, benutzt werden, um ein Modell der eingegebenen Sprache zu erzeugen. In der Praxis ist das Intonationsmuster des-Sprachmodells ein standardisiertes Intonationsmuster für die betreffende Sprache oder ein Intonationsmuster, das durch Training oder genaue Kenntnis unter Verwendung einer Anzahl von Dialekten der betreffenden Sprache eingerichtet ist.
Die Prosodieinformation, d. h. die Fundamentaltonkurve, die von der eingegebenen Sprache durch die Extraktionseinheit 3 extrahiert ist, kann dazu verwendet werden, um Dialketinformation, Satzakzentinformation und Satzbetonungsinformation für Verwendung durch das Sprache-in-Sprache-Umwandlungssystem und für das Verfahren der vorliegenden Erfindung zu erhalten. Insbesondere kann die Dialektinformation durch das Sprachein-Sprache-Umwandlungssystem und das Verfahren benutzt werden, um den Dialekt der ausgegebenen Sprache an denjenigen der eingegebenen Sprache anzupassen, und die Satzakzent- und Betonungsinformation kann bei der Erkennung und Interpretation der eingegebenen Sprache verwendet werden.
In Übereinstimmung mit der vorliegenden Erfindung schließen die Mittel zum Erhalten von Dialektinformation von der Prosodieinformation ein:

– erste Analysiermittel zum Bestimmen des Intonationsmusters des Fundamentaltons der eingegebenen Sprache und dadurch der Maximal- und Minimalwerte der Fundamentaltonkurve und ihrer entsprechenden Stellen;
– zweite Analysiermittel zum Bestimmen des Intonationsmusters der Fundamentaltonkurve des Sprachmodells und dadurch der Maximal- und Minimalwerte der Fundamentaltonkurve und ihrer entsprechenden Stellen; und
– Vergleichermittel zum Vergleichen des Intonationsmusters der eingegebenen Sprache mit dem Intonationsmuster des Sprachmodells, um eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimal-Werte der Fundamentaltonkurven der ankommenden Sprache in bezug auf die Maximal- und Minimal-Werte der Fundamentaltonkurve des Sprachmodells zu vergleichen, wobei die identifizierte Zeitdifferenz für die Dialektcharakteristiken der eingegebenen Sprache Hinweise gibt bzw. diese anzeigt.

Die Zeitdifferenz, auf die oben Bezug genommen wurde, kann in bezug auf einen Intonationsmusterbezugspunkt bestimmt werden.
In der schwedischen Sprache kann die Differenz, was das Intonationsmuster anbetrifft, zwischen unterschiedlichen Dialekten durch unterschiedliche Zeitpunkte für Wort- und Satzakzent beschrieben werden, d. h., daß die Zeitdifferenz in bezug auf einen Intonationsmusterbezugspunkt bestimmt werden kann, z. B. den Punkt, bei dem die Konsonanten/Vokalgrenze auftritt.
Bei einer bevorzugten Ausführungsform der vorliegenden Erfindung ist der Bezugswert, gegen den die Zeitdifferenz gemessen wird, der Punkt, an dem die Konsonant/Vokalgrenze auftritt, d. h. die CV-Grenze.
Die identifizierte Zeitdifferenz, die, wie dies oben erwähnt wurde, den Dialekt der angegebenen Sprache anzeigt, d. h. der gesprochenen Sprache, wird an den Text-zu-Sprache-Umwandler 7 angelegt, um es zu ermöglichen, daß das Intonationsmuster und dadurch der Dialekt des Sprachausgangssignals des Systems korrigiert werden kann, so daß es dem Intonationsmuster der entsprechenden Worte und/oder Phrase der eingegebenen Sprache entspricht. Der Korrekturvorgang ermöglicht daher, daß die Dialektinformation in der Eingangssprache in die Ausgangssprache eingebaut wird.
Wie dies oben angegeben wurde, beruht die Fundamentaltonkurve des Sprachmodells auf Information, die von lexikalischen (Orthographie und Transkription) und synthetischen Prüfungen besteht. zusätzlich schließt die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation des Typs betonter Silben, d. h. tonale Wortakzente I und II, und Information ein, die sich auf den Ort des sekundären Akzents beziehen, d. h. Information, die z. B. in Wörterbüchern angegeben ist. Diese Information kann verwendet werden, um das Erkennungsmuster des Spracherkennungsmodells einzustellen, z. B. das Hidden-Markov-Modell, um die Transkriptionsinformation zu berücksichtigen. Ein exakteres Modell der eingegebenen Sprache wird daher während des Interpretationsvorgangs erhalten.
Eine weitere Konsequenz dieses Sprachmodellkorrekturvorgangs besteht darin, daß mit der Zeit das Sprachmodell ein Betonungsmuster haben wird, das durch einen Trainingsvorgang eingerichtet ist.
Mit dem System und dem Verfahren der vorliegenden Erfindung wird das Sprachmodell mit einer gesprochenen Eingangssequenz verglichen, und irgendein Unterschied zwischen kann bestimmt werden und dazu verwendet werden, das Sprachmodell in Übereinstimmung mit der gesprochenen Sequenz zu bringen und/oder Betonungen in der gesprochenen Sequenz zu bestimmen.
Die Identifizierung von Betonungen in einer gesprochenen Sequenz ermöglicht es, die genaue Bedeutung der gesprochenen Sequenz in unzweideutiger Weise zu bestimmen. Insbesondere können relative Satzbetonungen bestimmt werden, indem das Verhältnis Veränderungen und Deklination der Fundamentalkurve klassifiziert werden, wobei hervorgehobene Abschnitte oder individuelle Wörter bestimmt werden können. Zusätzlich kann die Tonhöhe der Sprache von der Deklination der Fundamentaltonkurve bestimmt werden.
Um Satzbetonungen bei der Erkennung und Interpretation der Spracheingangssignale in das Sprache-in-Sprache-Umwandlungs system der vorliegenden Erfindung zu berücksichtigen, sind daher die Extraktionseinheit 3 in Verbindung mit der Interpretationseinheit 4 dazu ausgebildet, zu bestimmen:

– ein erstes Verhältnis zwischen der Variation und der Deklination der Fundamentalkurve der eingegebenen Sprache;
– ein zweites Verhältnis zwischen der Variation und der Deklination der Fundamentaltonkurve des Sprachmodells; und
– die ersten und zweiten Verhältnisse zu vergleichen, wobei irgendwelche Unterschiede dazu verwendet werden, Satzakzentanordnungen zu bestimmen.

Zusätzlich ermöglicht Klassifizierung des Verhältnisses zwischen der Variation und der Deklination der Fundamentaltonkurve, relative Satzbetonungen und hervorgehobene Abschnitt oder Wörter zu identifizieren/bestimmen.
Auch die Beziehung zwischen der Variation und der Deklination der Fundamentaltonkurve kann verwendet werden, den dynamischen Bereich der Fundamentaltonkurve zu bestimmen.
Die Information, die in Bezug auf die Fundamentaltonkurve bezüglich Dialekt, Satzakzent und Betonung erhalten wird, kann für die Interpretation der Sprache durch die Interpretationseinheit 4 verwendet werden, d. h. die Information kann in der oben angegebenen Weise benutzt werden, um ein besseres Verständnis des Inhalts der eingegebenen Sprache zu erhalten und das Intonationsmuster des Sprachmodells in Übereinstimmung mit der eingegebenen Sprache zu bringen.
Da das korrigierte Sprachmodell die Sprachcharakteristiken (einschließlich Dialektinformation, Satzakzent und Betonung) der eingegebenen Sprache aufweist, kann es benutzt werden, um ein verbessertes Verständnis der eingegebenen Sprache zu erhalten und kann wirksam durch die Datenbankverwaltungseinheit 5 verwendet werden, um die erforderlichen Sprachinformationsdaten von der Datenbank 6 zu erhalten, um eine Antwort auf eine Spracheingabe in das Sprache-in-Sprache-Umwandlungssystem zu formulieren.
Die Fähigkeit, ohne weiteres unterschiedliche Dialekte in einer Sprache unter Verwendung von Fundamentaltonkurveninformation zu interpretieren, ist von einiger Bedeutung, da solche Interpretationen bewirkt werden können, ohne daß man das Spracherkennungssystem trainieren muß. Das Ergebnis hiervon ist, daß die Größe und dadurch die Kosten des Spracherkennungssystems, das in Übereinstimmung mit der Erfindung hergestellt ist, viel geringer sein können, als dies mit bekannten Systemen möglich ist. Es gibt daher deutliche Vorteile gegenüber bekannten Spracherkennungssystemen.
Auch die Möglichkeit, Sprache zu detektieren, und zwar unabhängig von Dialektvariationen, in Übereinstimmung mit dem System und dem Verfahren der vorliegenden Erfindung ermöglicht es, Sprache in vielen auf Sprache reagierenden Anwendungen zu verwenden. Das System ist daher dazu ausgebildet, den Inhalt von Spracheingaben zu erkennen und genau zu interpretieren und den Dialekt der Sprachantwort so auszubilden, daß er mit dem Dialekt der eingegebenen Sprache übereinstimmt. Dieses verfahren schafft ein benutzerfreundliches System, da die Sprache des Mensch- Maschinendialog in Übereinstimmung ist mit dem Dialekt des betreffenden Benutzers.
Die vorliegende Erfindung ist nicht auf die oben ausgeführten Ausführungsformen beschränkt, sondern kann innerhalb des Bereichs der beigefügten Patentansprüche abgewandelt werden.

Claims

System zur Sprache-in-Sprache-Umsetzung zum Erzeugen am Ausgang desselben von gesprochenen Antworten auf am System eingegebenen Spracheingaben mit Spracherkennungsmitteln für die Spracheingabe; Interpretationsmitteln zum Interpretieren des Inhaltes der erkannten Spracheingabe; und einer Datenbank, welche Sprachinformationsdaten zur Verwendung bei der Formulierung der gesprochenen Antworten enthält, wobei der Ausgang der Interpretationsmittel dazu verwendet wird auf die Datenbank zuzugreifen und Sprachinformationsdaten aus dieser zu erhalten, dadurch gekennzeichnet, daß das System weiterhin Extraktionsmittel zum Extrahieren der Satzrhythmusinformation aus dem Spracheingang; Mittel zum Erzielen einer Dialektinformation aus der Satzrhythmusinformation; und eine Einrichtung für eine Text-in-Sprache-Umsetzung zum Umsetzen der Sprachinformationsdaten, die aus der Datenbank erhalten worden sind, in eine gesprochene Antwort unter Verwendung der Dialektinformation aufweist, wobei der Dialekt der gesprochenen Antwort an denjenigen des Spracheingangs angepaßt wird, wobei die Mittel zum Erzielen der Dialektinformation aus der Sprachrhythmusinformation aufweisen erste Analysemittel zum Bestimmen des Intonationsmusters aus dem Grundton des Spracheingangs und dabei der Maximum- und Minimum-Werte der Grundtonkurve und deren entsprechende Positionen; zweite Analysemittel zum Bestimmen des Intonationsmusters der Grundtonkurve des Sprachmodells und dabei der Maximum- und Minimumwerte der Grundtonkurve und ihrer entsprechenden Positionen; Vergleichsmittel zum Vergleichen des Intonationsmusters des Spracheingangs mit dem Intonationsmuster des Sprachmodells zum Identifizieren der Zeitdifferenz zwischen dem Auftreten der Maximum- und Minimum-Werte der Grundtonkurven des Spracheingangs in Relation zu den Maximum- und Minimum-Werten der Grundtonkurve des Sprachmodells, wobei die identifizierte Zeitdifferenz die Dialektcharakteristika des Spracheingangs anzeigt.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 1, dadurch gekennzeichnet, daß die Spracherkennungsmittel für das Identifizieren einer Anzahl von Phonemen aus einem Segment des Spracheingangs angepaßt sind und Interpretationsmittel zum Interpretieren der Phoneme als möglicher Worte oder Wortkombinationen aufweisen, um ein Sprachmodell zu errichten, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster für die Sprache des Spracheingangs hat.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 2, dadurch gekennzeichnet, daß die Satzrhythmusinformation, die aus dem Spracheingang extrahiert worden ist, die Grundtonkurve des Spracheingangs ist.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 3, dadurch gekennzeichnet, daß die Zeitdifferenz in Relation zu einem Intonationsmuster-Referenzpunkt bestimmt wird.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 4, dadurch gekennzeichnet, daß der Intonationsmuster-Referenzpunkt, bezogen auf welchen die Zeitdifferenz gemessen wird, der Punkt ist, an welchem eine Konsonant-/Vokal-Grenze auftritt.
System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß das System ferner Mittel zum Erzielen von Information über die Satzakzente aus der Satzrhythmusinformation aufweist:
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 6, dadurch gekennzeichnet, daß die Spracherkennungsmittel Überprüfungsmittel zum lexikalen Überprüfen der Worte in dem Sprachmodell und zum Überprüfen der Syntax der Phrasen in dem Sprachmodell haben, wobei die Worte und Phrasen, welche linguistisch nicht möglich sind, aus dem Sprachmodell ausgeschlossen werden, in dem die Überprüfungsmittel so ausgebildet sind, daß sie die orthographische und phonetische Transkription der Worte in dem Sprachmodell überprüfen, indem die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation, Information bezüglich der Art betonter Silben und Information bezüglich des Ortes des Sekundärakzentes aufweist.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 7, dadurch gekennzeichnet, daß die Akzentinformation sich auf den tonalen Wortakzent I und Akzent II bezieht.
System zur Sprache-in-Sprache-Umsetzung nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, daß die Satzakzentinformation bei der Interpretation des Inhaltes des erkanntes Spracheingangs verwendet wird.
System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß Satzbetonungen bestimmt werden und bei der Interpretation des Inhaltes des erkannten Spracheingangs verwendet werden.
System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß das System ferner Dialogverwaltungsmittel zum Verwalten eines Dialogs mit der Datenbank hat, wobei der Dialog durch die Interpretationsmittel initiiert wird.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 11, dadurch gekennzeichnet, daß der Dialog mit der Datenbank zu der Anwendung von Sprachinformationsdaten bei den Text-in-Sprache-Umsetzungsmitteln führt.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 10 oder 11, dadurch gekennzeichnet, daß der Dialog mit der Datenbank unter Verwendung von SQL durchgeführt wird.
Mit Stimme antwortendes Kommunikationssystem mit einem System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche.
Verfahren zum Schaffen einer gesprochenen Antwort auf einen Spracheingang in einem mit Stimme antwortenden Kommunikationssystem, wobei die Antwort einen Dialekt aufweist, der an denjenigen des Spracheingangs angepaßt ist, wobei das Verfahren die Schritte aufweist Erkennen und Interpretieren des Spracheingangs und Verwenden der Interpretation zum Erzielen von Sprachinformationsdaten aus einer Datenbank zur Verwendung bei der Formulierung der gesprochenen Antwort, dadurch gekennzeichnet, daß das Verfahren weiterhin die Schritte aufweist Extrahieren der Satzrhythmusinformation aus dem Spracheingang, Erzielen von Dialektinformation aus der Satzrhythmusinformation und Umwandeln der Sprachinformationsdaten, die von der Datenbank erhalten worden sind, in die gesprochene Antwort unter Verwendung der Dialektinformation, die Schritte Bestimmen des Intonationsmusters des Grundtons des Spracheingangs und dadurch der Maximum- und Minimum-Werte der Grundtonkurve und deren entsprechende Positionen; Bestimmen des Intonationsmusters der Grundtonkurve des Sprachmodells und dadurch der Maximum- und Minimum-Werte der Grundtonkurve und deren jeweiliger Positionen; Vergleichen des Intonationsmusters des Spracheingangs mit dem Intonationsmuster des Sprachmodells, um die Zeitdifferenz zwischen dem Auftreten des Maximum- und Minimum-Wertes der Grundtonkur ven für den Spracheingang in Relation zu den Maximum- und Minimum-Werten der Grundtonkurve des Sprachmodells zu identifizieren, wobei die identifizierte Zeitdifferenz die Dialektcharakteristika des Spracheingangs anzeigt.
Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß die Erkennung und Interpretation die Schritte Identifizieren einer Anzahl von Phonemen aus einem Segment des Spracheingangs und Interpretieren der Phoneme als mögliche Worte oder Wortkombinationen zum Errichten eines Sprachmodells aufweist, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster für die Sprache des Spracheingangs hat.
Verfahren nach Anspruch 16, dadurch gekennzeichnet, daß die Satzrhythmusinformation, welche aus dem Spracheingang extrahiert worden ist, die Grundtonkurve des Spracheingangs ist.
Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß die Zeitdifferenz in Relation zu einem Intonationsmuster-Referenzpunkt bestimmt wird.
verfahren nach Anspruch 18, dadurch gekennzeichnet, daß der Intonationsmuster-Referenzpunkt, gegenüber welchem die Zeitdifferenz gemessen wird, der Punkt ist, an welchem eine Konsonant-/Vokal-Grenze auftritt.
Verfahren nach einem der Ansprüche 15 bis 19, gekennzeichnet durch den Schritt Erzielen von Information bezüglich der Satzakzente aus der Satzrhythmusinformation.
Verfahren nach Anspruch 20, dadurch gekennzeichnet, daß die Worte in dem Sprachmodell lexikalisch überprüft werden, daß die Phrasen in dem Sprachmodell bezüglich der Syntax überprüft werden, daß die Worte und Phrasen, die linguistisch nicht möglich sind, aus dem Sprachmodell ausgeschlossen werden, daß die orthographische und phonetische Transkription der Worte in dem Sprachmodell überprüft wird und daß die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation der Art betonter Silben und Information bezüglich des Ortes des Sekundärakzentes aufweist.
Verfahren nach Anspruch 21, dadurch gekennzeichnet, daß die Akzentinformation sich auf den tonalen Wortakzent I und Akzent II bezieht.
Verfahren nach einem der Ansprüche 20 bis 22, gekennzeichnet durch den Schritt Verwenden der Satzakzentinformation bei der Interpretation des Spracheingangs.
Verfahren nach einem der Ansprüche 15 bis 23, gekennzeichnet durch den Schritt Initiieren eines Dialoges mit der Datenbank zum Erzielen von Sprachinformationsdaten zum Formulieren der gesprochenen Antwort, wobei der Dialog auf die Interpretation des Spracheingangs folgend, initiiert wird.
Verfahren nach Anspruch 24, dadurch gekennzeichnet, daß der Dialog mit der Datenbank zu der Anwendung von Sprachinformationsdaten bei den Text-in-Sprache-Umsetzungsmitteln führt.
Mit Stimme antwortendes Kommunikationssystem, das so ausgebildet ist, daß es ein Verfahren wie in einem der Ansprüche 15 bis 25 beansprucht, verwenden kann, um eine gesprochene Antwort auf einen Spracheingang am System zu erzeugen.