-
Die Erfindung betrifft ein Sprache-in-Sprache-Umwandlungssystem
und ein Verfahren, die im Stande sind, den Dialekt von Sprachausgangssignalen
an die empfangenen Spracheingangssignale anzupassen, und ein auf
Sprache reagierendes Kommunikationssystem, das ein Sprache-in-Sprache-Umwandlungssystem
einschließt
und in Übereinstimmung
mit einem Sprache-in-Sprache-Umwandlungsverfahren
arbeitet.
-
Bei bekannten auf Sprache reagierenden Kommunikationssystemen
wird die Sprachinformation, die in einer Datenbank gespeichert ist
und verwendet wird, geeignete synthetisierte gesprochene Antworten
auf Spracheingangssignale unter Verwendung eines Sprache-in-Sprache-Umwandlungssystem
zu liefern, normalerweise in einem Dialekt reproduziert, der einem
nationalen Standarddialekt entspricht. Wenn es beträchtliche
Unterschiede zwischen dem Dialekt der Spracheingangssignale und dem
nationalen Standarddialekt gibt, kann es sich so als schwierig in
gewissen Umständen
für die
Datenbank von bekannten auf Sprache reagierenden Kommunikationssystemen
erweisen, empfangene Sprachinformation zu interpretieren, d. h.
die Spracheingangssignale zu interpretieren. Es kann auch schwierig
sein für
die Person, die die Spracheingangssignale macht, voll die gesprochene
Antwort zu verstehen. Sogar wenn solche Antworten für einen Empfänger verständlich sind,
wäre es
benutzerfreundlicher, wenn der Dialekt der gesprochenen Antwort
der selbe ist wie der Dialekt des damit zusammenhängenden
Spracheingangssignals.
-
Auch bei der künstlichen Wiedergabe einer gesprochenen
Sprache ist es notwendig, daß die Sprache
natürlich
und mit der richtigen Akzentuierung reproduziert wird. Insbesondere
kann die Bedeutung eines Wortes stark unterschiedliche Bedeutungen
in Abhängigkeit
von der Sprachbetonung haben. Auch kann der Bedeutung des einen
und selben Satzes eine beträchtliche
Signifikanz in Abhängigkeit davon
gegeben werden, wo die Betonung angeordnet wird. Außerdem bestimmt
das Betonen von Sätzen
oder Teilen derselben Abschnitte, die in der Sprache hervorgehoben
werden und die wichtig bei der Bestimmung der genauen Bedeutung
der gesprochenen Sprache sein können.
-
Die Notwendigkeit, daß künstlich
produzierte Sprache so natürlich
wie möglich
sein soll und die richtige Betonung hat, ist von besonderer Bedeutung bei
auf Sprache reagierenden Kommunikationseinrichtungen und/oder Systemen,
die Sprache in unterschiedlichen Zusammenhängen erzeugen. Mit bekannten
auf Sprache reagierenden Anordnungen ist die reproduzierte Sprache
schwierig zu verstehen und zu interpretieren. Es besteht daher eine
Notwendigkeit für
ein Sprache-in-Sprache-Umwandlungssystem,
in dem die künstlichen
Sprachausgangssignale natürlich
sind, die richtige Betonung haben und leicht verständlich sind.
-
Bei Sprachen, die gut entwickelte
Satzakzentbetonungen und/oder Tonhöhen in individuellen Worten
haben, ist die Identifizierung der natürlichen Bedeutung der Worte/Sätze sehr
schwierig. Die Tatsache, daß Betonungen
falsch angeordnet werden können,
erhöht
das Risiko der falschen Interpretation, oder daß die Bedeutung für die zuhörende Partei völlig verloren
geht.
-
Es sind verschiedene Typen von Spracherkennungssystemen
bekannt. Es ist bei solchen Systemen üblich, daß die Spracherkennungsausrüstung trainiert
wird, um Sprache von einer großen
Anzahl von Personen zu erkennen. Auch das Sprachtraining folgt einem
besonderen Dialekt oder Dialekten. Die Information, die durch diesen
Vorgang gesammelt wird, wird dann durch das System verwendet, um
ankommende Sprache zu interpretieren. Ein solches System kann daher
normalerweise Dialektabwandlungen der Sprache nicht verstehen, die
außerhalb des
be sonderen Dialekts/der besonderen Dialekte liegen, für die das
System trainiert worden ist.
-
Als Beispiel offenbart Dokument WO-A-96-00962
ein Spracherkennungssystem zum Erkennen von Dialektvariationen in
einer Sprache.
-
In Sprachen mit Tonwortakzenten und
Tonsprache bildet das Intonationsmuster der Sprache einen sehr wichtigen
Teil beim Verständnis
der Sprache, bekannte Systeme berücksichtigen jedoch nicht diese
Sprachcharakteristiken. Als Konsequenz hiervon kann die Erkennung
von Worten und Phrasen bei bekannten Spracherkennungssystemen Anlaß zu Fehlinterpretationen
geben. Die bekannten Spracherkennungssysteme, die dazu ausgebildet
sind, Dialekte bei der Sprache zu berücksichtigen, sind besonders
für einen
speziellen Dialekt maßgeschneidert
und sind daher nicht dazu ausgebildet, unterschiedliche Dialekte
in einer Sprache zu erkennen.
-
In der Zukunft werden Spracherkennungsausrüstungen
in immer größeren Ausmaß bei sehr vielen
verschiedenen Anwendungen verwendet werden, wo die Notwendigkeit
besteht, imstande zu sein, unterschiedliche Dialekte in einer Sprache
zu erkennen. Die Dialektvariationen in einer Sprache sind in der
Vergangenheit schwierig zu bestimmen gewesen, und als Konsequenz
hiervon wurden Schwierigkeiten beim Erhalten eines richtigen Verständnisses von
künstlich
erzeugter Sprache erfahren. Darüber hinaus
können
die bekannten Spracherkennungsausrüstungen im allgemeinen nicht
mit unterschiedlichen Sprachen verwendet werden.
-
Obwohl bekannte Spracherkennungssysteme
dazu ausgebildet sind, durch Training einen besonderen Dialekt in
einer Sprache zu erkennen, ist es für solche Systeme nicht möglich, unterschiedliche Dialekte
in dieser Sprache oder Dialekte in unterschiedlichen Sprachen unter
Verwendung derselben Spracherkennungsausrüstung ohne weiteres Training
zu erkennen.
-
Die künstliche Interpretation von
Sprache ist daher schwierig, wenn nicht sogar unmöglich mit
bekannten Spracherkennungsausrüstungen
durchzuführen
gewesen, und zwar aufgrund der Unfähigkeit solcher Systeme, Dialektvariationen
zu erkennen.
-
Außer den technischen Problemen,
Sprache korrekt zu interpretieren, ist es bei Spracherkennungs/Sprachsteuersystemen
notwendig, daß die verbalen
Anweisungen oder Befehle richtig interpretiert werden, da es sonst
nicht möglich
wäre, geeignete
Reaktionen oder richtige Steuerung unterschiedlicher Typen von Ausrüstungen
zu liefern.
-
Um diese Schwierigkeiten zu überwinden, wäre es für ein auf
Sprache reagierendes Kommunikationssystem notwendig, daß es die
empfangene Sprachinformation unabhängig vom Dialekt zu interpretieren
und den Dialekt der Sprachausgangssignale an denjenigen der entsprechenden
Spracheingangssignale anzupassen imstande ist. Um imstande zu sein,
die Bedeutung von einzelnen Worten oder Phrasen in unzweideutiger
Weise in einem gesprochenem Satz zu verstehen, wäre es auch notwendig für die Sprache
in Sprachewandler, die in einem auf Sprache reagierenden Kommunikationssystem
verwendet werden, daß sie
imstande sind, Betonungen in der gesprochenen Sequenz zu bestimmen
und zu berücksichtigen.
-
Es ist eine Aufgabe der vorliegenden
Erfindung, ein System und ein Verfahren für Sprache-in-Sprache-Umwandlung
zu schaffen, die imstande sind, den Dialekt der Sprachausgangssignale an
denjenigen der entsprechenden Spracheingangssignale anzupassen.
-
Es ist ein weiteres Ziel der vorliegenden
Erfindung, ein System und ein Verfahren für Sprache-in-Sprache-Umwandlung
zu schaffen, die dazu ausgebildet sind, Spracheingangssignale und
insbesondere den Dialekt, Satzakzent und Betonung von gesprochenen
Sequenzen unter Verwendung der Fundamentalkurve der gesprochenen
Sequenz zu erkennen und zu interpretieren.
-
Es ist ein weiteres Ziel der vorliegenden
Erfindung, ein auf Sprache reagierendes Kommunikationssystem einschließlich eines
Sprache-in-Sprache-Umwandlungssystems zu schaffen, das imstande
ist, den Dialekt von Sprachausgangssignalen an denjenigen von entsprechenden
Spracheingangssignalen anzupassen.
-
Die Erfindung, wie sie in den Ansprüchen 1 bis
26 beansprucht ist, schafft ein Sprache-in-Sprache-Umwandlungssystem
zum Schaffen von gesprochenen Antworten auf Spracheingänge in das
System am Ausgang desselben einschließlich Spracherkennungsmittel
für die
Eingangssprache; Interpretationsmittel zum Interpretieren des Inhalts
des erkannten eingegebenen Sprachsignals; und eine Datenbank, die
Sprachinformationsdaten für
Verwendung bei der Formulierung der gesprochenen Antworten enthält, wobei
der Ausgang der Interpretationsmittel dazu verwendet wird, Zugang
zur Datenbank zu machen und Sprachinformationsdaten von derselben
zu erhalten, dadurch gekennzeichnet, daß das System weiter Extraktionsmittel
zum Extrahieren von Prosodieinformation von der eingegebenen Sprache;
Mittel zum Erhalten von Dialektinformation von der Prosodieinformation;
und Text-zu-Sprache-Umwandlungsmittel einschließt, um die Sprachinformationsdaten, die
von der Datenbank erhalten sind, in eine gesprochene Antwort unter
Verwendung der Dialektinformation umzuwandeln, wobei der Dialekt
der gesprochenen Antwort an denjenigen der eingegebenen Sprache
angepaßt
ist.
-
Die Spracherkennungsmittel können dazu ausgebildet
sein, eine Anzahl von Phonemen von einem Segment der eingegebenen
Sprache zu identifizieren und die Phoneme zu interpretieren, und
zwar als mögliche
Worte oder Wortkombinationen, um ein Modell der Sprache einzurichten,
wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster
für die
Sprache der eingegebenen Sprache hat.
-
Die Prosodieinformation, die von
der eingegebenen Sprache extrahiert wird, ist vorzugsweise die Fundamentaltonkurve
der eingegebenen Sprache. In diesem Falle schließen die Mittel zum Erhalten
von Dialektinformation von der Prosodieinformation erste Analysiermittel
zum Bestimmen des Intonationsmusters des Fundamentaltons der eingegebenen
Sprache und damit der Maximal- und Minimal-Werte der Fundamentalkurve
und ihrer entsprechenden Stellen; zweite Analysiermittel zum Bestimmen
des Intonationsmusters der Fundamentaltonkurve des Sprachmodells
und dadurch der maximalen und minimalen Werte der Fundamentaltonkurve
und ihrer entsprechenden Positionen; Vergleichermittel zum Vergleichen
der Intonationsmuster der eingegebenen Sprache mit dem Intonationsmuster
des Sprachmodells, um einen Zeitunterschied zwischen dem Auftreten
der Maximal- und Minimal-Werte der Fundamentalkurve der ankommenden
Sprache in Bezug auf die Maximal- und Minimal-Werte der Fundamentalkurve
des Sprachmodells zu bestimmen, wobei die identifizierte Zeitdifferenz
Dialektcharakteristiken der eingegebenen Sprache anzeigt, ein. Die Zeitdifferenz
kann in Bezug auf einen Intonationsmusterbezugspunkt, z. B. den
Punkt, an dem eine Konsonanten/Vokalgrenze auftritt, bestimmt werden.
-
Das Sprache-in-Sprache-Umwandlungssystem
kann Mittel zum Erhalten von Information über Satzakzente von der Prosodieinformation
enthalten. In diesem Falle schließt das Spracherkennungssystem
Prüfmittel
ein, um lexikalisch die Worte im Sprachmodell zu überprüfen und
um syntaktisch die Phrasen im Sprachmodell zu prüfen, wobei die Worte und Phrasen,
die linguistisch nicht möglich
sind, vom Sprachmodell ausgeschlossen werden. Die Prüfmittel
sind bei dieser Anordnung dazu ausgebildet, die Orthographie und
phonetische Transkription der Worte im Sprachmodell zu überprüfen, wobei
die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation
des Typs betonter Silben und Information einschließt, die
sich auf den Ort des sekundären
Akzents bezieht. Die Akzentinformation kann sich z. B. auf den tonalen
Wortakzent I und Akzent II beziehen.
-
Die Satzakzentinformation und/oder
die Satzbetonung können
vorteilhafterweise bei der Interpretation des Inhalts der erkannten
Eingangssprache verwendet werden.
-
Das Sprache-in-Sprache-Umwandlungssystem
kann Dialogverwaltungssysteme zum Verwalten eines Dialogs mit der
Datenbank einschließen,
welcher Dialog durch die Interpretationsmittel initiiert wird. Bei
einer bevorzugten Ausführungsform
führt der
Dialog mit der Datenbank zur Anwendung von Sprachinformationsdaten
auf die Text-zu-Sprache-Umwandlungsmittel.
-
Die Erfindung schafft auch in einem
auf Sprache reagierenden xommunikationssystem ein Verfahren, eine
gesprochene Antwort auf ein Spracheingangssignal in das System zu
schaffen, welche Antwort einen Dialekt hat, der denjenigen des Spracheingangssignals
angepaßt
ist, wobei das Verfahren die Schritte aufweist, die Eingangssprache
zu erkennen und zu interpretieren und die Interpretation zu verwenden,
Sprachinformationsdaten von einer Datenbank für Verwendung bei der Formulierung
der gesprochenen Antwort zu erhalten, dadurch gekennzeichnet, daß das Verfahren
weiter die Schritte aufweist, Prosodieinformation von der eingegebenen Sprache
zu extrahieren, Dialektinformation von der Prosodieinformation zu
erhalten und Sprachinformationsdaten, die von der Datenbank erhalten
werden, in die gesprochene Antwort unter Verwendung der Dialektinformation
umzuwandeln.
-
Die Erkennung und Interpretation
der eingegebenen Sprache schließt
die Schritte ein, eine Anzahl von Phonemen von einem Segment der
eingegebenen Sprache zu identifizieren und die Phoneme als mögliche Worte
oder Wortkombination zu interpretieren, um ein Modell der Sprache
einzurichten, wobei das Sprachmodell Wort- und Satzakzente entsprechend
einem standardisierten Muster für
die Sprache der eingegebenen Sprache hat.
-
Bei einem bevorzugten Verfahren ist
die Prosodieinformation, die von der eingegebenen Sprache extrahiert
wird, die Funda mentaltonkurve der eingegebenen Sprache. In diesem
Falle schließt
das Verfahren der vorliegenden Erfindung die Schritte ein, das Intonationsmuster
des Fundamentaltons der eingegebenen Sprache zu bestimmen und dadurch
die Maximal- und Minimal-Werte der Fundamentaltonkurve und ihre
entsprechenden Positionen zu bestimmen; das Intonationsmuster der
Fundamentalkurve eines Sprachmodells und dabei die Maximal- und
Minimal-Werte der Fundamentaltonkurve und ihrer entsprechenden Positionen
zu bestimmen; das Intonationsmuster der eingegebenen Sprache mit
dem Intonationsmuster des Sprachmodells zu vergleichen, um eine
Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimal-Werte
der Fundamentaltonkurven der ankommenden Sprache in Bezug auf die Maximal-
und Minimal-Werte der Fundamentalkurve des Sprachmodells zu identifizieren,
wobei die identifizierte Zeitdifferenz für Dialektcharakteristiken der eingegebenen
Sprache typisch ist bzw. diese anzeigt. Die Zeitdifferenz kann in
Bezug auf einen Intonationsmusterbezugspunkt, z. B. den Punkt bestimmt
werden, an dem die Konsonant/Vokalgrenze auftritt.
-
Das Verfahren der vorliegenden Erfindung kann
den Schritt aufweisen, Information über Satzakzente von der Prosodieinformation
zu erhalten. In Übereinstimmung
mit diesem Verfahren werden die Worte im Sprachmodell lexikalisch überprüft, und
die Phrasen im Sprachmodell werden syntaktisch überprüft, wobei die Worte und Phrasen,
die linguistisch nicht möglich
sind, von dem Sprachmodell ausgeschlossen werden. Auch kann in Übereinstimmung mit
diesem Verfahren die Orthographie und phonetische Transkription
der Worte des Sprachmodells überprüft werden,
wobei die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation
des Typs betonter Silben und Informationen bezüglich des Ortes der Sekundärakzents
einschließt.
Die Akzentinformation kann sich auf den tonalen Wortakzent I und
Akzent II beziehen.
-
In Übereinstimmung mit dem Verfahren
der vorliegenden Erfindung können
Satzakzentinformation und/oder Satzbetonung bei der Interpretation
des Inhalts der erkannten eingegebenen Sprache verwendet werden.
-
Das Verfahren der vorliegenden Erfindung kann
den Schritt einschließen,
einen Dialog mit einer Datenbank zu initiieren, um Sprachinformationsdaten zum
Formulieren der gesprochenen Antwort zu erhalten, wobei der Dialog
initiiert wird nach Interpretation der eingegebenen Sprache. Der
Dialog mit der Datenbank kann zur Anwendung der Sprachinformationsdaten
auf Text-zu-Sprache-Umwandlungsmittel führen.
-
Die Erfindung liefert weiter ein
auf Sprache reagierendes Kommunikationssystem, das ein Sprache-in-Sprache-Umwandlungssystem
einschließt, wie
es in den vorstehenden Absätzen
ausgeführt wurde,
oder verwendet ein Verfahren, wie es in den vorstehenden Absätzen aufgeführt wurde,
um eine gesprochene Antwort auf Sprache zu liefern, die in das System
eingegeben ist. Im wesentlichen bestehen die charakteristischen
Merkmale des Sprache-in-Sprache-Umwandlungssystems und des Verfahrens
gemäß der vorliegenden
Erfindung in folgendem:
-
- – Prosodieinformation
wird von Sprache extrahiert, die dem Eingang des Systems zugeführt wird,
und durch das Verfahren gehandhabt;
- – die
Prosodieinformation ist in der Form der Fundamentaltonkurve der
eingegebenen Sprache;
- – die
Fundamentalkurve wird verwendet, um Dialekt-, Satzakzent- und Satz-
Betonungsinformation für
die eingegebene Sprache zu erhalten;
- – der
Satzakzent und die Betonungsinformation werden bei der Interpretation
der eingegebenen Sprache verwendet, wobei das Ergebnis der Interpretation
verwendet wird, um Sprachinformationsdaten von einer Datenbank zu
erhalten, die bei der Formulierung von Sprachantworten auf die Spracheingänge verwendet
wird; und
- – die
Dialektinformation wird verwendet, um sicherzustellen, daß die Sprachantworten
auf die Spracheingänge
einen Dialekt haben, der an denjenigen der Spracheingänge angepaßt ist.
-
Die vorstehenden und andere Merkmale
der vorliegenden Erfindung werden besser aus der folgenden Beschreibung
unter Bezugnahme auf die einzige Figur der beigefügten Zeichnungen
verstanden werden, die in Form eine Blockdiagramms ein Sprache-in-Sprache-Umwandlungssystem
der Erfindung darstellt.
-
Man wird aus der einzigen Figur der
beigefügten
Zeichnungen ersehen, daß ein
Sprache-in-Sprache-Umwandlungssystem der Erfindung an ihrem Eingang 1 eine
Spracherkennungseinheit 2 und eine Extraktionseinheit 3 zum
Extrahieren von Prosodieinformation von der Sprache einschließt, die in
den Systemeingang 1 eingegeben ist, d. h. die Fundamentaltonkurve
der eingegebenen Sprache. Es werden also Spracheingänge, die
an den Eingang 1 angelegt werden, gleichzeitig an die Einheiten 2 und 3 angelegt.
-
Der Ausgang der Spracherkennungseinheit 2 und
ein Ausgang der Extraktionseinheit 3 sind mit getrennten
Eingängen
der Interpretationseinheit 4 verbunden, deren Ausgang mit
einer Datenbankverwaltungseinheit 5 verbunden ist. Die
Datenbankverwaltungseinheit 5, die ausgebildet ist für Zweiwegkommunikation
mit einer Datenbank 6, ist an ihrem Ausgangsende mit dem
Eingang eines Text-zu-Sprache-Umwandlers verbunden. Der Dialog zwischen der
Datenbank 6 und der Datenbankverwaltungseinheit 5 kann
durch irgendeine bekannte Datenbankkommunikationssprache, z. B.
SQL (Structured Query Language, strukturierte Abfragesprache) bewirkt werden.
Das Ausgangssignal des Text-zu-Sprache-Umwandlers 7 liefert
ein synthetisiertes Sprachausgangssignal an das Sprache-in-Sprache-Umwandlungs-system.
-
Wie dies in der einzigen Figur der
Zeichnungen gezeigt ist, ist ein weiterer Ausgang der Extraktionseinheit 3 mit
dem Eingang einer Prosodieanalysiereinheit 8 verbunden,
die für
Zweiwegkommunikation mit dem Text-zu-Sprache-Umwandler ausgebildet
ist. Die Prosodieanalysiereinheit 8 ist dazu ausgebildet,
als Teil des Text-zu-Sprache-Umwandlungsvorgangs des Umwandlers 7 die
Prosodieinformation, d. h. die Fundamentalkurve der synthetisierten
Sprache zu analysieren und irgendwelche notwendigen Korrekturen
am Intonationsmuster der synthetisierten Sprache in Übereinstimmung
mit der Dialektinformation vorzunehmen, die von der eingegebenen
Sprache extrahiert worden ist. Der Dialekt des synthetisierten Sprachausgangsignals
des Sprache-in-Sprache-Umwandlungssystem wird daher an denjenigen
der eingegebenen Sprache angepaßt sein.
-
Man wird daher aus dem Vorstehenden
erkennen, daß die
vorliegende Erfindung dazu ausgebildet ist, eine gesprochene Antwort
auf eine in das Sprache-in-Sprache-Umwandlungssystem eingegebene
Sprache zu liefern, die einen Dialekt hat, die demjenigen der eingegebenen
Sprache angepaßt
ist, und daß dieser
Umwandlungsvorgang die Schritte aufweist, die eingegebene Sprache
zu erkennen und zu interpretieren, die Interpretation zu verwenden, um
Sprachinformationsdaten von einer Datenbank für Verwendung bei der Formulierung
der gesprochenen Antwort zu erhalten, Prosodieinformation von der eingegebenen
Sprache zu extrahieren, Dialektinformation von der Prosodieinformation
zu erhalten und die Sprachinformationsdaten, die von der Datenbank erhalten
sind, in die gesprochene Antwort unter Verwendung der Dialektinformation
umzuwandeln. Die Art und Weise, in der dies bewirkt werden kann,
soll in den folgende Absätzen
ausgeführt
werden.
-
In der Praxis werden die Spracheingaben
in das Sprache-in-Sprache-Umwandlungssystem,
die viele Formen haben können,
z. B. Anforderungen auf Information über besondere Themen wie z.
B. Bank- oder Telefondienste oder allgemeine Anfragen betreffend
solcher Dienste, an den Eingang 1 und dadurch an die Eingänge der
Einheiten 2 und 3 angelegt.
-
Die Spracherkennungseinheit 2 und
die Interpretationseinheit 4 sind dazu ausgebildet, in
einer für
den Fachmann wohlbekannten Art die Spracheingänge in das System zu erkennen
und zu interpretieren. Die Spracherkennungseinheit 2 kann
z. B. arbeiten, indem sie ein Hidden-Markov-Modell oder ein äquivalentes
Sprachmodell verwendet. Im wesentlichen besteht die Funktion der
Einheiten 2 und 4 darin, Spracheingangssignale
in das System in eine Form umzuwandeln, die eine treue Darstellung
des Inhalts der Spracheingänge
ist und für
Eingabe in den Eingang der Datenbankverwaltungseinheit 5 geeignet
ist. Anders gesagt muß der
Inhalt der Textinformationsdaten am Ausgang der Interpretationseinheit 4 eine
genaue Darstellung des Spracheingangssignals sein und durch die
Datenbankverwaltungseinheit 5 verwendbar sein, um Zugriff
zu nehmen und Sprachinformationsdaten von der Datenbank 6 zu extrahieren
für die
Verwendung der Formulierung der synthetisierten gesprochenen Antwort
auf das Spracheingangssignal. In der Praxis würde dieser Vorgang im wesentlichen
durch Identifizieren einer Anzahl von Phonemen von einem Segment
der eingegebenen Sprache bewirkt werden, die in Allophonstränge kombiniert
werden, wobei die Phoneme als mögliche
Worte oder Wortkombinationen interpretiert werden, um ein Modell
der Sprache einzurichten. Das eingerichtete Sprachmodell wird Wort- und
Satzakzente gemäß einem
standardisierten Muster für
die Sprache der eingegebenen Sprache haben.
-
Die Information, die die erkannten
Worte und Wortkombinationen betrifft, die durch die Spracherkennungseinheit 2 erzeugt
wird, kann in der Praxis sowohl lexikalisch (unter Verwendung eines
Lexikons mit Orthographie und Transkription) oder syntaktisch geprüft werden.
Der Zweck dieser Überprüfungen besteht
darin, irgendwelche Worte zu identifizieren und auszuschließen, die
in der betreffenden Sprache nicht existieren, und/oder irgendwelche
Phrasen auszuschließen,
deren Syntax nicht der betreffenden Sprache entspricht.
-
In Übereinstimmung mit der vorliegenden
Erfindung stellt die Spracherkennungseinheit 2 also sicher,
daß nur
jene Worte und Wortkombinationen, die als sowohl lexikalisch als
auch syntaktisch als annehmbar befunden werden, benutzt werden,
um ein Modell der eingegebenen Sprache zu erzeugen. In der Praxis
ist das Intonationsmuster des-Sprachmodells ein standardisiertes
Intonationsmuster für
die betreffende Sprache oder ein Intonationsmuster, das durch Training
oder genaue Kenntnis unter Verwendung einer Anzahl von Dialekten
der betreffenden Sprache eingerichtet ist.
-
Die Prosodieinformation, d. h. die
Fundamentaltonkurve, die von der eingegebenen Sprache durch die
Extraktionseinheit 3 extrahiert ist, kann dazu verwendet
werden, um Dialketinformation, Satzakzentinformation und Satzbetonungsinformation
für Verwendung
durch das Sprache-in-Sprache-Umwandlungssystem und für das Verfahren
der vorliegenden Erfindung zu erhalten. Insbesondere kann die Dialektinformation
durch das Sprachein-Sprache-Umwandlungssystem und das Verfahren
benutzt werden, um den Dialekt der ausgegebenen Sprache an denjenigen
der eingegebenen Sprache anzupassen, und die Satzakzent- und Betonungsinformation
kann bei der Erkennung und Interpretation der eingegebenen Sprache
verwendet werden.
-
In Übereinstimmung mit der vorliegenden
Erfindung schließen
die Mittel zum Erhalten von Dialektinformation von der Prosodieinformation
ein:
-
- – erste
Analysiermittel zum Bestimmen des Intonationsmusters des Fundamentaltons
der eingegebenen Sprache und dadurch der Maximal- und Minimalwerte
der Fundamentaltonkurve und ihrer entsprechenden Stellen;
- – zweite
Analysiermittel zum Bestimmen des Intonationsmusters der Fundamentaltonkurve
des Sprachmodells und dadurch der Maximal- und Minimalwerte der
Fundamentaltonkurve und ihrer entsprechenden Stellen; und
- – Vergleichermittel
zum Vergleichen des Intonationsmusters der eingegebenen Sprache
mit dem Intonationsmuster des Sprachmodells, um eine Zeitdifferenz
zwischen dem Auftreten der Maximal- und Minimal-Werte der Fundamentaltonkurven
der ankommenden Sprache in bezug auf die Maximal- und Minimal-Werte
der Fundamentaltonkurve des Sprachmodells zu vergleichen, wobei
die identifizierte Zeitdifferenz für die Dialektcharakteristiken
der eingegebenen Sprache Hinweise gibt bzw. diese anzeigt.
-
Die Zeitdifferenz, auf die oben Bezug
genommen wurde, kann in bezug auf einen Intonationsmusterbezugspunkt
bestimmt werden.
-
In der schwedischen Sprache kann
die Differenz, was das Intonationsmuster anbetrifft, zwischen unterschiedlichen
Dialekten durch unterschiedliche Zeitpunkte für Wort- und Satzakzent beschrieben werden,
d. h., daß die
Zeitdifferenz in bezug auf einen Intonationsmusterbezugspunkt bestimmt
werden kann, z. B. den Punkt, bei dem die Konsonanten/Vokalgrenze
auftritt.
-
Bei einer bevorzugten Ausführungsform
der vorliegenden Erfindung ist der Bezugswert, gegen den die Zeitdifferenz
gemessen wird, der Punkt, an dem die Konsonant/Vokalgrenze auftritt,
d. h. die CV-Grenze.
-
Die identifizierte Zeitdifferenz,
die, wie dies oben erwähnt
wurde, den Dialekt der angegebenen Sprache anzeigt, d. h. der gesprochenen
Sprache, wird an den Text-zu-Sprache-Umwandler 7 angelegt, um
es zu ermöglichen,
daß das
Intonationsmuster und dadurch der Dialekt des Sprachausgangssignals des
Systems korrigiert werden kann, so daß es dem Intonationsmuster
der entsprechenden Worte und/oder Phrase der eingegebenen Sprache
entspricht. Der Korrekturvorgang ermöglicht daher, daß die Dialektinformation
in der Eingangssprache in die Ausgangssprache eingebaut wird.
-
Wie dies oben angegeben wurde, beruht
die Fundamentaltonkurve des Sprachmodells auf Information, die von
lexikalischen (Orthographie und Transkription) und synthetischen
Prüfungen
besteht. zusätzlich
schließt
die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation
des Typs betonter Silben, d. h. tonale Wortakzente I und II, und Information
ein, die sich auf den Ort des sekundären Akzents beziehen, d. h.
Information, die z. B. in Wörterbüchern angegeben
ist. Diese Information kann verwendet werden, um das Erkennungsmuster
des Spracherkennungsmodells einzustellen, z. B. das Hidden-Markov-Modell,
um die Transkriptionsinformation zu berücksichtigen. Ein exakteres
Modell der eingegebenen Sprache wird daher während des Interpretationsvorgangs
erhalten.
-
Eine weitere Konsequenz dieses Sprachmodellkorrekturvorgangs
besteht darin, daß mit
der Zeit das Sprachmodell ein Betonungsmuster haben wird, das durch
einen Trainingsvorgang eingerichtet ist.
-
Mit dem System und dem Verfahren
der vorliegenden Erfindung wird das Sprachmodell mit einer gesprochenen
Eingangssequenz verglichen, und irgendein Unterschied zwischen kann
bestimmt werden und dazu verwendet werden, das Sprachmodell in Übereinstimmung
mit der gesprochenen Sequenz zu bringen und/oder Betonungen in der
gesprochenen Sequenz zu bestimmen.
-
Die Identifizierung von Betonungen
in einer gesprochenen Sequenz ermöglicht es, die genaue Bedeutung
der gesprochenen Sequenz in unzweideutiger Weise zu bestimmen. Insbesondere
können relative
Satzbetonungen bestimmt werden, indem das Verhältnis Veränderungen und Deklination der Fundamentalkurve
klassifiziert werden, wobei hervorgehobene Abschnitte oder individuelle
Wörter
bestimmt werden können.
Zusätzlich
kann die Tonhöhe der
Sprache von der Deklination der Fundamentaltonkurve bestimmt werden.
-
Um Satzbetonungen bei der Erkennung
und Interpretation der Spracheingangssignale in das Sprache-in-Sprache-Umwandlungs system
der vorliegenden Erfindung zu berücksichtigen, sind daher die
Extraktionseinheit 3 in Verbindung mit der Interpretationseinheit 4 dazu
ausgebildet, zu bestimmen:
-
- – ein
erstes Verhältnis
zwischen der Variation und der Deklination der Fundamentalkurve
der eingegebenen Sprache;
- – ein
zweites Verhältnis
zwischen der Variation und der Deklination der Fundamentaltonkurve
des Sprachmodells; und
- – die
ersten und zweiten Verhältnisse
zu vergleichen, wobei irgendwelche Unterschiede dazu verwendet werden,
Satzakzentanordnungen zu bestimmen.
-
Zusätzlich ermöglicht Klassifizierung des Verhältnisses
zwischen der Variation und der Deklination der Fundamentaltonkurve,
relative Satzbetonungen und hervorgehobene Abschnitt oder Wörter zu
identifizieren/bestimmen.
-
Auch die Beziehung zwischen der Variation und
der Deklination der Fundamentaltonkurve kann verwendet werden, den
dynamischen Bereich der Fundamentaltonkurve zu bestimmen.
-
Die Information, die in Bezug auf
die Fundamentaltonkurve bezüglich
Dialekt, Satzakzent und Betonung erhalten wird, kann für die Interpretation der
Sprache durch die Interpretationseinheit 4 verwendet werden,
d. h. die Information kann in der oben angegebenen Weise benutzt
werden, um ein besseres Verständnis
des Inhalts der eingegebenen Sprache zu erhalten und das Intonationsmuster
des Sprachmodells in Übereinstimmung
mit der eingegebenen Sprache zu bringen.
-
Da das korrigierte Sprachmodell die
Sprachcharakteristiken (einschließlich Dialektinformation, Satzakzent
und Betonung) der eingegebenen Sprache aufweist, kann es benutzt
werden, um ein verbessertes Verständnis der eingegebenen Sprache
zu erhalten und kann wirksam durch die Datenbankverwaltungseinheit
5 verwendet
werden, um die erforderlichen Sprachinformationsdaten von der Datenbank 6 zu
erhalten, um eine Antwort auf eine Spracheingabe in das Sprache-in-Sprache-Umwandlungssystem
zu formulieren.
-
Die Fähigkeit, ohne weiteres unterschiedliche
Dialekte in einer Sprache unter Verwendung von Fundamentaltonkurveninformation
zu interpretieren, ist von einiger Bedeutung, da solche Interpretationen bewirkt
werden können,
ohne daß man
das Spracherkennungssystem trainieren muß. Das Ergebnis hiervon ist,
daß die
Größe und dadurch
die Kosten des Spracherkennungssystems, das in Übereinstimmung mit der Erfindung
hergestellt ist, viel geringer sein können, als dies mit bekannten
Systemen möglich
ist. Es gibt daher deutliche Vorteile gegenüber bekannten Spracherkennungssystemen.
-
Auch die Möglichkeit, Sprache zu detektieren,
und zwar unabhängig
von Dialektvariationen, in Übereinstimmung
mit dem System und dem Verfahren der vorliegenden Erfindung ermöglicht es,
Sprache in vielen auf Sprache reagierenden Anwendungen zu verwenden.
Das System ist daher dazu ausgebildet, den Inhalt von Spracheingaben
zu erkennen und genau zu interpretieren und den Dialekt der Sprachantwort
so auszubilden, daß er
mit dem Dialekt der eingegebenen Sprache übereinstimmt. Dieses verfahren
schafft ein benutzerfreundliches System, da die Sprache des Mensch-
Maschinendialog in Übereinstimmung
ist mit dem Dialekt des betreffenden Benutzers.
-
Die vorliegende Erfindung ist nicht
auf die oben ausgeführten
Ausführungsformen
beschränkt, sondern
kann innerhalb des Bereichs der beigefügten Patentansprüche abgewandelt
werden.