DE69723449T2 - Verfahren und system zur sprache-in-sprache-umsetzung - Google Patents

Verfahren und system zur sprache-in-sprache-umsetzung Download PDF

Info

Publication number
DE69723449T2
DE69723449T2 DE69723449T DE69723449T DE69723449T2 DE 69723449 T2 DE69723449 T2 DE 69723449T2 DE 69723449 T DE69723449 T DE 69723449T DE 69723449 T DE69723449 T DE 69723449T DE 69723449 T2 DE69723449 T2 DE 69723449T2
Authority
DE
Germany
Prior art keywords
speech
information
input
language
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69723449T
Other languages
English (en)
Other versions
DE69723449D1 (de
Inventor
Bertil Lyberg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Application granted granted Critical
Publication of DE69723449D1 publication Critical patent/DE69723449D1/de
Publication of DE69723449T2 publication Critical patent/DE69723449T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)

Description

  • Die Erfindung betrifft ein Sprache-in-Sprache-Umwandlungssystem und ein Verfahren, die im Stande sind, den Dialekt von Sprachausgangssignalen an die empfangenen Spracheingangssignale anzupassen, und ein auf Sprache reagierendes Kommunikationssystem, das ein Sprache-in-Sprache-Umwandlungssystem einschließt und in Übereinstimmung mit einem Sprache-in-Sprache-Umwandlungsverfahren arbeitet.
  • Bei bekannten auf Sprache reagierenden Kommunikationssystemen wird die Sprachinformation, die in einer Datenbank gespeichert ist und verwendet wird, geeignete synthetisierte gesprochene Antworten auf Spracheingangssignale unter Verwendung eines Sprache-in-Sprache-Umwandlungssystem zu liefern, normalerweise in einem Dialekt reproduziert, der einem nationalen Standarddialekt entspricht. Wenn es beträchtliche Unterschiede zwischen dem Dialekt der Spracheingangssignale und dem nationalen Standarddialekt gibt, kann es sich so als schwierig in gewissen Umständen für die Datenbank von bekannten auf Sprache reagierenden Kommunikationssystemen erweisen, empfangene Sprachinformation zu interpretieren, d. h. die Spracheingangssignale zu interpretieren. Es kann auch schwierig sein für die Person, die die Spracheingangssignale macht, voll die gesprochene Antwort zu verstehen. Sogar wenn solche Antworten für einen Empfänger verständlich sind, wäre es benutzerfreundlicher, wenn der Dialekt der gesprochenen Antwort der selbe ist wie der Dialekt des damit zusammenhängenden Spracheingangssignals.
  • Auch bei der künstlichen Wiedergabe einer gesprochenen Sprache ist es notwendig, daß die Sprache natürlich und mit der richtigen Akzentuierung reproduziert wird. Insbesondere kann die Bedeutung eines Wortes stark unterschiedliche Bedeutungen in Abhängigkeit von der Sprachbetonung haben. Auch kann der Bedeutung des einen und selben Satzes eine beträchtliche Signifikanz in Abhängigkeit davon gegeben werden, wo die Betonung angeordnet wird. Außerdem bestimmt das Betonen von Sätzen oder Teilen derselben Abschnitte, die in der Sprache hervorgehoben werden und die wichtig bei der Bestimmung der genauen Bedeutung der gesprochenen Sprache sein können.
  • Die Notwendigkeit, daß künstlich produzierte Sprache so natürlich wie möglich sein soll und die richtige Betonung hat, ist von besonderer Bedeutung bei auf Sprache reagierenden Kommunikationseinrichtungen und/oder Systemen, die Sprache in unterschiedlichen Zusammenhängen erzeugen. Mit bekannten auf Sprache reagierenden Anordnungen ist die reproduzierte Sprache schwierig zu verstehen und zu interpretieren. Es besteht daher eine Notwendigkeit für ein Sprache-in-Sprache-Umwandlungssystem, in dem die künstlichen Sprachausgangssignale natürlich sind, die richtige Betonung haben und leicht verständlich sind.
  • Bei Sprachen, die gut entwickelte Satzakzentbetonungen und/oder Tonhöhen in individuellen Worten haben, ist die Identifizierung der natürlichen Bedeutung der Worte/Sätze sehr schwierig. Die Tatsache, daß Betonungen falsch angeordnet werden können, erhöht das Risiko der falschen Interpretation, oder daß die Bedeutung für die zuhörende Partei völlig verloren geht.
  • Es sind verschiedene Typen von Spracherkennungssystemen bekannt. Es ist bei solchen Systemen üblich, daß die Spracherkennungsausrüstung trainiert wird, um Sprache von einer großen Anzahl von Personen zu erkennen. Auch das Sprachtraining folgt einem besonderen Dialekt oder Dialekten. Die Information, die durch diesen Vorgang gesammelt wird, wird dann durch das System verwendet, um ankommende Sprache zu interpretieren. Ein solches System kann daher normalerweise Dialektabwandlungen der Sprache nicht verstehen, die außerhalb des be sonderen Dialekts/der besonderen Dialekte liegen, für die das System trainiert worden ist.
  • Als Beispiel offenbart Dokument WO-A-96-00962 ein Spracherkennungssystem zum Erkennen von Dialektvariationen in einer Sprache.
  • In Sprachen mit Tonwortakzenten und Tonsprache bildet das Intonationsmuster der Sprache einen sehr wichtigen Teil beim Verständnis der Sprache, bekannte Systeme berücksichtigen jedoch nicht diese Sprachcharakteristiken. Als Konsequenz hiervon kann die Erkennung von Worten und Phrasen bei bekannten Spracherkennungssystemen Anlaß zu Fehlinterpretationen geben. Die bekannten Spracherkennungssysteme, die dazu ausgebildet sind, Dialekte bei der Sprache zu berücksichtigen, sind besonders für einen speziellen Dialekt maßgeschneidert und sind daher nicht dazu ausgebildet, unterschiedliche Dialekte in einer Sprache zu erkennen.
  • In der Zukunft werden Spracherkennungsausrüstungen in immer größeren Ausmaß bei sehr vielen verschiedenen Anwendungen verwendet werden, wo die Notwendigkeit besteht, imstande zu sein, unterschiedliche Dialekte in einer Sprache zu erkennen. Die Dialektvariationen in einer Sprache sind in der Vergangenheit schwierig zu bestimmen gewesen, und als Konsequenz hiervon wurden Schwierigkeiten beim Erhalten eines richtigen Verständnisses von künstlich erzeugter Sprache erfahren. Darüber hinaus können die bekannten Spracherkennungsausrüstungen im allgemeinen nicht mit unterschiedlichen Sprachen verwendet werden.
  • Obwohl bekannte Spracherkennungssysteme dazu ausgebildet sind, durch Training einen besonderen Dialekt in einer Sprache zu erkennen, ist es für solche Systeme nicht möglich, unterschiedliche Dialekte in dieser Sprache oder Dialekte in unterschiedlichen Sprachen unter Verwendung derselben Spracherkennungsausrüstung ohne weiteres Training zu erkennen.
  • Die künstliche Interpretation von Sprache ist daher schwierig, wenn nicht sogar unmöglich mit bekannten Spracherkennungsausrüstungen durchzuführen gewesen, und zwar aufgrund der Unfähigkeit solcher Systeme, Dialektvariationen zu erkennen.
  • Außer den technischen Problemen, Sprache korrekt zu interpretieren, ist es bei Spracherkennungs/Sprachsteuersystemen notwendig, daß die verbalen Anweisungen oder Befehle richtig interpretiert werden, da es sonst nicht möglich wäre, geeignete Reaktionen oder richtige Steuerung unterschiedlicher Typen von Ausrüstungen zu liefern.
  • Um diese Schwierigkeiten zu überwinden, wäre es für ein auf Sprache reagierendes Kommunikationssystem notwendig, daß es die empfangene Sprachinformation unabhängig vom Dialekt zu interpretieren und den Dialekt der Sprachausgangssignale an denjenigen der entsprechenden Spracheingangssignale anzupassen imstande ist. Um imstande zu sein, die Bedeutung von einzelnen Worten oder Phrasen in unzweideutiger Weise in einem gesprochenem Satz zu verstehen, wäre es auch notwendig für die Sprache in Sprachewandler, die in einem auf Sprache reagierenden Kommunikationssystem verwendet werden, daß sie imstande sind, Betonungen in der gesprochenen Sequenz zu bestimmen und zu berücksichtigen.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren für Sprache-in-Sprache-Umwandlung zu schaffen, die imstande sind, den Dialekt der Sprachausgangssignale an denjenigen der entsprechenden Spracheingangssignale anzupassen.
  • Es ist ein weiteres Ziel der vorliegenden Erfindung, ein System und ein Verfahren für Sprache-in-Sprache-Umwandlung zu schaffen, die dazu ausgebildet sind, Spracheingangssignale und insbesondere den Dialekt, Satzakzent und Betonung von gesprochenen Sequenzen unter Verwendung der Fundamentalkurve der gesprochenen Sequenz zu erkennen und zu interpretieren.
  • Es ist ein weiteres Ziel der vorliegenden Erfindung, ein auf Sprache reagierendes Kommunikationssystem einschließlich eines Sprache-in-Sprache-Umwandlungssystems zu schaffen, das imstande ist, den Dialekt von Sprachausgangssignalen an denjenigen von entsprechenden Spracheingangssignalen anzupassen.
  • Die Erfindung, wie sie in den Ansprüchen 1 bis 26 beansprucht ist, schafft ein Sprache-in-Sprache-Umwandlungssystem zum Schaffen von gesprochenen Antworten auf Spracheingänge in das System am Ausgang desselben einschließlich Spracherkennungsmittel für die Eingangssprache; Interpretationsmittel zum Interpretieren des Inhalts des erkannten eingegebenen Sprachsignals; und eine Datenbank, die Sprachinformationsdaten für Verwendung bei der Formulierung der gesprochenen Antworten enthält, wobei der Ausgang der Interpretationsmittel dazu verwendet wird, Zugang zur Datenbank zu machen und Sprachinformationsdaten von derselben zu erhalten, dadurch gekennzeichnet, daß das System weiter Extraktionsmittel zum Extrahieren von Prosodieinformation von der eingegebenen Sprache; Mittel zum Erhalten von Dialektinformation von der Prosodieinformation; und Text-zu-Sprache-Umwandlungsmittel einschließt, um die Sprachinformationsdaten, die von der Datenbank erhalten sind, in eine gesprochene Antwort unter Verwendung der Dialektinformation umzuwandeln, wobei der Dialekt der gesprochenen Antwort an denjenigen der eingegebenen Sprache angepaßt ist.
  • Die Spracherkennungsmittel können dazu ausgebildet sein, eine Anzahl von Phonemen von einem Segment der eingegebenen Sprache zu identifizieren und die Phoneme zu interpretieren, und zwar als mögliche Worte oder Wortkombinationen, um ein Modell der Sprache einzurichten, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster für die Sprache der eingegebenen Sprache hat.
  • Die Prosodieinformation, die von der eingegebenen Sprache extrahiert wird, ist vorzugsweise die Fundamentaltonkurve der eingegebenen Sprache. In diesem Falle schließen die Mittel zum Erhalten von Dialektinformation von der Prosodieinformation erste Analysiermittel zum Bestimmen des Intonationsmusters des Fundamentaltons der eingegebenen Sprache und damit der Maximal- und Minimal-Werte der Fundamentalkurve und ihrer entsprechenden Stellen; zweite Analysiermittel zum Bestimmen des Intonationsmusters der Fundamentaltonkurve des Sprachmodells und dadurch der maximalen und minimalen Werte der Fundamentaltonkurve und ihrer entsprechenden Positionen; Vergleichermittel zum Vergleichen der Intonationsmuster der eingegebenen Sprache mit dem Intonationsmuster des Sprachmodells, um einen Zeitunterschied zwischen dem Auftreten der Maximal- und Minimal-Werte der Fundamentalkurve der ankommenden Sprache in Bezug auf die Maximal- und Minimal-Werte der Fundamentalkurve des Sprachmodells zu bestimmen, wobei die identifizierte Zeitdifferenz Dialektcharakteristiken der eingegebenen Sprache anzeigt, ein. Die Zeitdifferenz kann in Bezug auf einen Intonationsmusterbezugspunkt, z. B. den Punkt, an dem eine Konsonanten/Vokalgrenze auftritt, bestimmt werden.
  • Das Sprache-in-Sprache-Umwandlungssystem kann Mittel zum Erhalten von Information über Satzakzente von der Prosodieinformation enthalten. In diesem Falle schließt das Spracherkennungssystem Prüfmittel ein, um lexikalisch die Worte im Sprachmodell zu überprüfen und um syntaktisch die Phrasen im Sprachmodell zu prüfen, wobei die Worte und Phrasen, die linguistisch nicht möglich sind, vom Sprachmodell ausgeschlossen werden. Die Prüfmittel sind bei dieser Anordnung dazu ausgebildet, die Orthographie und phonetische Transkription der Worte im Sprachmodell zu überprüfen, wobei die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation des Typs betonter Silben und Information einschließt, die sich auf den Ort des sekundären Akzents bezieht. Die Akzentinformation kann sich z. B. auf den tonalen Wortakzent I und Akzent II beziehen.
  • Die Satzakzentinformation und/oder die Satzbetonung können vorteilhafterweise bei der Interpretation des Inhalts der erkannten Eingangssprache verwendet werden.
  • Das Sprache-in-Sprache-Umwandlungssystem kann Dialogverwaltungssysteme zum Verwalten eines Dialogs mit der Datenbank einschließen, welcher Dialog durch die Interpretationsmittel initiiert wird. Bei einer bevorzugten Ausführungsform führt der Dialog mit der Datenbank zur Anwendung von Sprachinformationsdaten auf die Text-zu-Sprache-Umwandlungsmittel.
  • Die Erfindung schafft auch in einem auf Sprache reagierenden xommunikationssystem ein Verfahren, eine gesprochene Antwort auf ein Spracheingangssignal in das System zu schaffen, welche Antwort einen Dialekt hat, der denjenigen des Spracheingangssignals angepaßt ist, wobei das Verfahren die Schritte aufweist, die Eingangssprache zu erkennen und zu interpretieren und die Interpretation zu verwenden, Sprachinformationsdaten von einer Datenbank für Verwendung bei der Formulierung der gesprochenen Antwort zu erhalten, dadurch gekennzeichnet, daß das Verfahren weiter die Schritte aufweist, Prosodieinformation von der eingegebenen Sprache zu extrahieren, Dialektinformation von der Prosodieinformation zu erhalten und Sprachinformationsdaten, die von der Datenbank erhalten werden, in die gesprochene Antwort unter Verwendung der Dialektinformation umzuwandeln.
  • Die Erkennung und Interpretation der eingegebenen Sprache schließt die Schritte ein, eine Anzahl von Phonemen von einem Segment der eingegebenen Sprache zu identifizieren und die Phoneme als mögliche Worte oder Wortkombination zu interpretieren, um ein Modell der Sprache einzurichten, wobei das Sprachmodell Wort- und Satzakzente entsprechend einem standardisierten Muster für die Sprache der eingegebenen Sprache hat.
  • Bei einem bevorzugten Verfahren ist die Prosodieinformation, die von der eingegebenen Sprache extrahiert wird, die Funda mentaltonkurve der eingegebenen Sprache. In diesem Falle schließt das Verfahren der vorliegenden Erfindung die Schritte ein, das Intonationsmuster des Fundamentaltons der eingegebenen Sprache zu bestimmen und dadurch die Maximal- und Minimal-Werte der Fundamentaltonkurve und ihre entsprechenden Positionen zu bestimmen; das Intonationsmuster der Fundamentalkurve eines Sprachmodells und dabei die Maximal- und Minimal-Werte der Fundamentaltonkurve und ihrer entsprechenden Positionen zu bestimmen; das Intonationsmuster der eingegebenen Sprache mit dem Intonationsmuster des Sprachmodells zu vergleichen, um eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimal-Werte der Fundamentaltonkurven der ankommenden Sprache in Bezug auf die Maximal- und Minimal-Werte der Fundamentalkurve des Sprachmodells zu identifizieren, wobei die identifizierte Zeitdifferenz für Dialektcharakteristiken der eingegebenen Sprache typisch ist bzw. diese anzeigt. Die Zeitdifferenz kann in Bezug auf einen Intonationsmusterbezugspunkt, z. B. den Punkt bestimmt werden, an dem die Konsonant/Vokalgrenze auftritt.
  • Das Verfahren der vorliegenden Erfindung kann den Schritt aufweisen, Information über Satzakzente von der Prosodieinformation zu erhalten. In Übereinstimmung mit diesem Verfahren werden die Worte im Sprachmodell lexikalisch überprüft, und die Phrasen im Sprachmodell werden syntaktisch überprüft, wobei die Worte und Phrasen, die linguistisch nicht möglich sind, von dem Sprachmodell ausgeschlossen werden. Auch kann in Übereinstimmung mit diesem Verfahren die Orthographie und phonetische Transkription der Worte des Sprachmodells überprüft werden, wobei die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation des Typs betonter Silben und Informationen bezüglich des Ortes der Sekundärakzents einschließt. Die Akzentinformation kann sich auf den tonalen Wortakzent I und Akzent II beziehen.
  • In Übereinstimmung mit dem Verfahren der vorliegenden Erfindung können Satzakzentinformation und/oder Satzbetonung bei der Interpretation des Inhalts der erkannten eingegebenen Sprache verwendet werden.
  • Das Verfahren der vorliegenden Erfindung kann den Schritt einschließen, einen Dialog mit einer Datenbank zu initiieren, um Sprachinformationsdaten zum Formulieren der gesprochenen Antwort zu erhalten, wobei der Dialog initiiert wird nach Interpretation der eingegebenen Sprache. Der Dialog mit der Datenbank kann zur Anwendung der Sprachinformationsdaten auf Text-zu-Sprache-Umwandlungsmittel führen.
  • Die Erfindung liefert weiter ein auf Sprache reagierendes Kommunikationssystem, das ein Sprache-in-Sprache-Umwandlungssystem einschließt, wie es in den vorstehenden Absätzen ausgeführt wurde, oder verwendet ein Verfahren, wie es in den vorstehenden Absätzen aufgeführt wurde, um eine gesprochene Antwort auf Sprache zu liefern, die in das System eingegeben ist. Im wesentlichen bestehen die charakteristischen Merkmale des Sprache-in-Sprache-Umwandlungssystems und des Verfahrens gemäß der vorliegenden Erfindung in folgendem:
    • – Prosodieinformation wird von Sprache extrahiert, die dem Eingang des Systems zugeführt wird, und durch das Verfahren gehandhabt;
    • – die Prosodieinformation ist in der Form der Fundamentaltonkurve der eingegebenen Sprache;
    • – die Fundamentalkurve wird verwendet, um Dialekt-, Satzakzent- und Satz- Betonungsinformation für die eingegebene Sprache zu erhalten;
    • – der Satzakzent und die Betonungsinformation werden bei der Interpretation der eingegebenen Sprache verwendet, wobei das Ergebnis der Interpretation verwendet wird, um Sprachinformationsdaten von einer Datenbank zu erhalten, die bei der Formulierung von Sprachantworten auf die Spracheingänge verwendet wird; und
    • – die Dialektinformation wird verwendet, um sicherzustellen, daß die Sprachantworten auf die Spracheingänge einen Dialekt haben, der an denjenigen der Spracheingänge angepaßt ist.
  • Die vorstehenden und andere Merkmale der vorliegenden Erfindung werden besser aus der folgenden Beschreibung unter Bezugnahme auf die einzige Figur der beigefügten Zeichnungen verstanden werden, die in Form eine Blockdiagramms ein Sprache-in-Sprache-Umwandlungssystem der Erfindung darstellt.
  • Man wird aus der einzigen Figur der beigefügten Zeichnungen ersehen, daß ein Sprache-in-Sprache-Umwandlungssystem der Erfindung an ihrem Eingang 1 eine Spracherkennungseinheit 2 und eine Extraktionseinheit 3 zum Extrahieren von Prosodieinformation von der Sprache einschließt, die in den Systemeingang 1 eingegeben ist, d. h. die Fundamentaltonkurve der eingegebenen Sprache. Es werden also Spracheingänge, die an den Eingang 1 angelegt werden, gleichzeitig an die Einheiten 2 und 3 angelegt.
  • Der Ausgang der Spracherkennungseinheit 2 und ein Ausgang der Extraktionseinheit 3 sind mit getrennten Eingängen der Interpretationseinheit 4 verbunden, deren Ausgang mit einer Datenbankverwaltungseinheit 5 verbunden ist. Die Datenbankverwaltungseinheit 5, die ausgebildet ist für Zweiwegkommunikation mit einer Datenbank 6, ist an ihrem Ausgangsende mit dem Eingang eines Text-zu-Sprache-Umwandlers verbunden. Der Dialog zwischen der Datenbank 6 und der Datenbankverwaltungseinheit 5 kann durch irgendeine bekannte Datenbankkommunikationssprache, z. B. SQL (Structured Query Language, strukturierte Abfragesprache) bewirkt werden. Das Ausgangssignal des Text-zu-Sprache-Umwandlers 7 liefert ein synthetisiertes Sprachausgangssignal an das Sprache-in-Sprache-Umwandlungs-system.
  • Wie dies in der einzigen Figur der Zeichnungen gezeigt ist, ist ein weiterer Ausgang der Extraktionseinheit 3 mit dem Eingang einer Prosodieanalysiereinheit 8 verbunden, die für Zweiwegkommunikation mit dem Text-zu-Sprache-Umwandler ausgebildet ist. Die Prosodieanalysiereinheit 8 ist dazu ausgebildet, als Teil des Text-zu-Sprache-Umwandlungsvorgangs des Umwandlers 7 die Prosodieinformation, d. h. die Fundamentalkurve der synthetisierten Sprache zu analysieren und irgendwelche notwendigen Korrekturen am Intonationsmuster der synthetisierten Sprache in Übereinstimmung mit der Dialektinformation vorzunehmen, die von der eingegebenen Sprache extrahiert worden ist. Der Dialekt des synthetisierten Sprachausgangsignals des Sprache-in-Sprache-Umwandlungssystem wird daher an denjenigen der eingegebenen Sprache angepaßt sein.
  • Man wird daher aus dem Vorstehenden erkennen, daß die vorliegende Erfindung dazu ausgebildet ist, eine gesprochene Antwort auf eine in das Sprache-in-Sprache-Umwandlungssystem eingegebene Sprache zu liefern, die einen Dialekt hat, die demjenigen der eingegebenen Sprache angepaßt ist, und daß dieser Umwandlungsvorgang die Schritte aufweist, die eingegebene Sprache zu erkennen und zu interpretieren, die Interpretation zu verwenden, um Sprachinformationsdaten von einer Datenbank für Verwendung bei der Formulierung der gesprochenen Antwort zu erhalten, Prosodieinformation von der eingegebenen Sprache zu extrahieren, Dialektinformation von der Prosodieinformation zu erhalten und die Sprachinformationsdaten, die von der Datenbank erhalten sind, in die gesprochene Antwort unter Verwendung der Dialektinformation umzuwandeln. Die Art und Weise, in der dies bewirkt werden kann, soll in den folgende Absätzen ausgeführt werden.
  • In der Praxis werden die Spracheingaben in das Sprache-in-Sprache-Umwandlungssystem, die viele Formen haben können, z. B. Anforderungen auf Information über besondere Themen wie z. B. Bank- oder Telefondienste oder allgemeine Anfragen betreffend solcher Dienste, an den Eingang 1 und dadurch an die Eingänge der Einheiten 2 und 3 angelegt.
  • Die Spracherkennungseinheit 2 und die Interpretationseinheit 4 sind dazu ausgebildet, in einer für den Fachmann wohlbekannten Art die Spracheingänge in das System zu erkennen und zu interpretieren. Die Spracherkennungseinheit 2 kann z. B. arbeiten, indem sie ein Hidden-Markov-Modell oder ein äquivalentes Sprachmodell verwendet. Im wesentlichen besteht die Funktion der Einheiten 2 und 4 darin, Spracheingangssignale in das System in eine Form umzuwandeln, die eine treue Darstellung des Inhalts der Spracheingänge ist und für Eingabe in den Eingang der Datenbankverwaltungseinheit 5 geeignet ist. Anders gesagt muß der Inhalt der Textinformationsdaten am Ausgang der Interpretationseinheit 4 eine genaue Darstellung des Spracheingangssignals sein und durch die Datenbankverwaltungseinheit 5 verwendbar sein, um Zugriff zu nehmen und Sprachinformationsdaten von der Datenbank 6 zu extrahieren für die Verwendung der Formulierung der synthetisierten gesprochenen Antwort auf das Spracheingangssignal. In der Praxis würde dieser Vorgang im wesentlichen durch Identifizieren einer Anzahl von Phonemen von einem Segment der eingegebenen Sprache bewirkt werden, die in Allophonstränge kombiniert werden, wobei die Phoneme als mögliche Worte oder Wortkombinationen interpretiert werden, um ein Modell der Sprache einzurichten. Das eingerichtete Sprachmodell wird Wort- und Satzakzente gemäß einem standardisierten Muster für die Sprache der eingegebenen Sprache haben.
  • Die Information, die die erkannten Worte und Wortkombinationen betrifft, die durch die Spracherkennungseinheit 2 erzeugt wird, kann in der Praxis sowohl lexikalisch (unter Verwendung eines Lexikons mit Orthographie und Transkription) oder syntaktisch geprüft werden. Der Zweck dieser Überprüfungen besteht darin, irgendwelche Worte zu identifizieren und auszuschließen, die in der betreffenden Sprache nicht existieren, und/oder irgendwelche Phrasen auszuschließen, deren Syntax nicht der betreffenden Sprache entspricht.
  • In Übereinstimmung mit der vorliegenden Erfindung stellt die Spracherkennungseinheit 2 also sicher, daß nur jene Worte und Wortkombinationen, die als sowohl lexikalisch als auch syntaktisch als annehmbar befunden werden, benutzt werden, um ein Modell der eingegebenen Sprache zu erzeugen. In der Praxis ist das Intonationsmuster des-Sprachmodells ein standardisiertes Intonationsmuster für die betreffende Sprache oder ein Intonationsmuster, das durch Training oder genaue Kenntnis unter Verwendung einer Anzahl von Dialekten der betreffenden Sprache eingerichtet ist.
  • Die Prosodieinformation, d. h. die Fundamentaltonkurve, die von der eingegebenen Sprache durch die Extraktionseinheit 3 extrahiert ist, kann dazu verwendet werden, um Dialketinformation, Satzakzentinformation und Satzbetonungsinformation für Verwendung durch das Sprache-in-Sprache-Umwandlungssystem und für das Verfahren der vorliegenden Erfindung zu erhalten. Insbesondere kann die Dialektinformation durch das Sprachein-Sprache-Umwandlungssystem und das Verfahren benutzt werden, um den Dialekt der ausgegebenen Sprache an denjenigen der eingegebenen Sprache anzupassen, und die Satzakzent- und Betonungsinformation kann bei der Erkennung und Interpretation der eingegebenen Sprache verwendet werden.
  • In Übereinstimmung mit der vorliegenden Erfindung schließen die Mittel zum Erhalten von Dialektinformation von der Prosodieinformation ein:
    • – erste Analysiermittel zum Bestimmen des Intonationsmusters des Fundamentaltons der eingegebenen Sprache und dadurch der Maximal- und Minimalwerte der Fundamentaltonkurve und ihrer entsprechenden Stellen;
    • – zweite Analysiermittel zum Bestimmen des Intonationsmusters der Fundamentaltonkurve des Sprachmodells und dadurch der Maximal- und Minimalwerte der Fundamentaltonkurve und ihrer entsprechenden Stellen; und
    • – Vergleichermittel zum Vergleichen des Intonationsmusters der eingegebenen Sprache mit dem Intonationsmuster des Sprachmodells, um eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimal-Werte der Fundamentaltonkurven der ankommenden Sprache in bezug auf die Maximal- und Minimal-Werte der Fundamentaltonkurve des Sprachmodells zu vergleichen, wobei die identifizierte Zeitdifferenz für die Dialektcharakteristiken der eingegebenen Sprache Hinweise gibt bzw. diese anzeigt.
  • Die Zeitdifferenz, auf die oben Bezug genommen wurde, kann in bezug auf einen Intonationsmusterbezugspunkt bestimmt werden.
  • In der schwedischen Sprache kann die Differenz, was das Intonationsmuster anbetrifft, zwischen unterschiedlichen Dialekten durch unterschiedliche Zeitpunkte für Wort- und Satzakzent beschrieben werden, d. h., daß die Zeitdifferenz in bezug auf einen Intonationsmusterbezugspunkt bestimmt werden kann, z. B. den Punkt, bei dem die Konsonanten/Vokalgrenze auftritt.
  • Bei einer bevorzugten Ausführungsform der vorliegenden Erfindung ist der Bezugswert, gegen den die Zeitdifferenz gemessen wird, der Punkt, an dem die Konsonant/Vokalgrenze auftritt, d. h. die CV-Grenze.
  • Die identifizierte Zeitdifferenz, die, wie dies oben erwähnt wurde, den Dialekt der angegebenen Sprache anzeigt, d. h. der gesprochenen Sprache, wird an den Text-zu-Sprache-Umwandler 7 angelegt, um es zu ermöglichen, daß das Intonationsmuster und dadurch der Dialekt des Sprachausgangssignals des Systems korrigiert werden kann, so daß es dem Intonationsmuster der entsprechenden Worte und/oder Phrase der eingegebenen Sprache entspricht. Der Korrekturvorgang ermöglicht daher, daß die Dialektinformation in der Eingangssprache in die Ausgangssprache eingebaut wird.
  • Wie dies oben angegeben wurde, beruht die Fundamentaltonkurve des Sprachmodells auf Information, die von lexikalischen (Orthographie und Transkription) und synthetischen Prüfungen besteht. zusätzlich schließt die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation des Typs betonter Silben, d. h. tonale Wortakzente I und II, und Information ein, die sich auf den Ort des sekundären Akzents beziehen, d. h. Information, die z. B. in Wörterbüchern angegeben ist. Diese Information kann verwendet werden, um das Erkennungsmuster des Spracherkennungsmodells einzustellen, z. B. das Hidden-Markov-Modell, um die Transkriptionsinformation zu berücksichtigen. Ein exakteres Modell der eingegebenen Sprache wird daher während des Interpretationsvorgangs erhalten.
  • Eine weitere Konsequenz dieses Sprachmodellkorrekturvorgangs besteht darin, daß mit der Zeit das Sprachmodell ein Betonungsmuster haben wird, das durch einen Trainingsvorgang eingerichtet ist.
  • Mit dem System und dem Verfahren der vorliegenden Erfindung wird das Sprachmodell mit einer gesprochenen Eingangssequenz verglichen, und irgendein Unterschied zwischen kann bestimmt werden und dazu verwendet werden, das Sprachmodell in Übereinstimmung mit der gesprochenen Sequenz zu bringen und/oder Betonungen in der gesprochenen Sequenz zu bestimmen.
  • Die Identifizierung von Betonungen in einer gesprochenen Sequenz ermöglicht es, die genaue Bedeutung der gesprochenen Sequenz in unzweideutiger Weise zu bestimmen. Insbesondere können relative Satzbetonungen bestimmt werden, indem das Verhältnis Veränderungen und Deklination der Fundamentalkurve klassifiziert werden, wobei hervorgehobene Abschnitte oder individuelle Wörter bestimmt werden können. Zusätzlich kann die Tonhöhe der Sprache von der Deklination der Fundamentaltonkurve bestimmt werden.
  • Um Satzbetonungen bei der Erkennung und Interpretation der Spracheingangssignale in das Sprache-in-Sprache-Umwandlungs system der vorliegenden Erfindung zu berücksichtigen, sind daher die Extraktionseinheit 3 in Verbindung mit der Interpretationseinheit 4 dazu ausgebildet, zu bestimmen:
    • – ein erstes Verhältnis zwischen der Variation und der Deklination der Fundamentalkurve der eingegebenen Sprache;
    • – ein zweites Verhältnis zwischen der Variation und der Deklination der Fundamentaltonkurve des Sprachmodells; und
    • – die ersten und zweiten Verhältnisse zu vergleichen, wobei irgendwelche Unterschiede dazu verwendet werden, Satzakzentanordnungen zu bestimmen.
  • Zusätzlich ermöglicht Klassifizierung des Verhältnisses zwischen der Variation und der Deklination der Fundamentaltonkurve, relative Satzbetonungen und hervorgehobene Abschnitt oder Wörter zu identifizieren/bestimmen.
  • Auch die Beziehung zwischen der Variation und der Deklination der Fundamentaltonkurve kann verwendet werden, den dynamischen Bereich der Fundamentaltonkurve zu bestimmen.
  • Die Information, die in Bezug auf die Fundamentaltonkurve bezüglich Dialekt, Satzakzent und Betonung erhalten wird, kann für die Interpretation der Sprache durch die Interpretationseinheit 4 verwendet werden, d. h. die Information kann in der oben angegebenen Weise benutzt werden, um ein besseres Verständnis des Inhalts der eingegebenen Sprache zu erhalten und das Intonationsmuster des Sprachmodells in Übereinstimmung mit der eingegebenen Sprache zu bringen.
  • Da das korrigierte Sprachmodell die Sprachcharakteristiken (einschließlich Dialektinformation, Satzakzent und Betonung) der eingegebenen Sprache aufweist, kann es benutzt werden, um ein verbessertes Verständnis der eingegebenen Sprache zu erhalten und kann wirksam durch die Datenbankverwaltungseinheit 5 verwendet werden, um die erforderlichen Sprachinformationsdaten von der Datenbank 6 zu erhalten, um eine Antwort auf eine Spracheingabe in das Sprache-in-Sprache-Umwandlungssystem zu formulieren.
  • Die Fähigkeit, ohne weiteres unterschiedliche Dialekte in einer Sprache unter Verwendung von Fundamentaltonkurveninformation zu interpretieren, ist von einiger Bedeutung, da solche Interpretationen bewirkt werden können, ohne daß man das Spracherkennungssystem trainieren muß. Das Ergebnis hiervon ist, daß die Größe und dadurch die Kosten des Spracherkennungssystems, das in Übereinstimmung mit der Erfindung hergestellt ist, viel geringer sein können, als dies mit bekannten Systemen möglich ist. Es gibt daher deutliche Vorteile gegenüber bekannten Spracherkennungssystemen.
  • Auch die Möglichkeit, Sprache zu detektieren, und zwar unabhängig von Dialektvariationen, in Übereinstimmung mit dem System und dem Verfahren der vorliegenden Erfindung ermöglicht es, Sprache in vielen auf Sprache reagierenden Anwendungen zu verwenden. Das System ist daher dazu ausgebildet, den Inhalt von Spracheingaben zu erkennen und genau zu interpretieren und den Dialekt der Sprachantwort so auszubilden, daß er mit dem Dialekt der eingegebenen Sprache übereinstimmt. Dieses verfahren schafft ein benutzerfreundliches System, da die Sprache des Mensch- Maschinendialog in Übereinstimmung ist mit dem Dialekt des betreffenden Benutzers.
  • Die vorliegende Erfindung ist nicht auf die oben ausgeführten Ausführungsformen beschränkt, sondern kann innerhalb des Bereichs der beigefügten Patentansprüche abgewandelt werden.

Claims (26)

  1. System zur Sprache-in-Sprache-Umsetzung zum Erzeugen am Ausgang desselben von gesprochenen Antworten auf am System eingegebenen Spracheingaben mit Spracherkennungsmitteln für die Spracheingabe; Interpretationsmitteln zum Interpretieren des Inhaltes der erkannten Spracheingabe; und einer Datenbank, welche Sprachinformationsdaten zur Verwendung bei der Formulierung der gesprochenen Antworten enthält, wobei der Ausgang der Interpretationsmittel dazu verwendet wird auf die Datenbank zuzugreifen und Sprachinformationsdaten aus dieser zu erhalten, dadurch gekennzeichnet, daß das System weiterhin Extraktionsmittel zum Extrahieren der Satzrhythmusinformation aus dem Spracheingang; Mittel zum Erzielen einer Dialektinformation aus der Satzrhythmusinformation; und eine Einrichtung für eine Text-in-Sprache-Umsetzung zum Umsetzen der Sprachinformationsdaten, die aus der Datenbank erhalten worden sind, in eine gesprochene Antwort unter Verwendung der Dialektinformation aufweist, wobei der Dialekt der gesprochenen Antwort an denjenigen des Spracheingangs angepaßt wird, wobei die Mittel zum Erzielen der Dialektinformation aus der Sprachrhythmusinformation aufweisen erste Analysemittel zum Bestimmen des Intonationsmusters aus dem Grundton des Spracheingangs und dabei der Maximum- und Minimum-Werte der Grundtonkurve und deren entsprechende Positionen; zweite Analysemittel zum Bestimmen des Intonationsmusters der Grundtonkurve des Sprachmodells und dabei der Maximum- und Minimumwerte der Grundtonkurve und ihrer entsprechenden Positionen; Vergleichsmittel zum Vergleichen des Intonationsmusters des Spracheingangs mit dem Intonationsmuster des Sprachmodells zum Identifizieren der Zeitdifferenz zwischen dem Auftreten der Maximum- und Minimum-Werte der Grundtonkurven des Spracheingangs in Relation zu den Maximum- und Minimum-Werten der Grundtonkurve des Sprachmodells, wobei die identifizierte Zeitdifferenz die Dialektcharakteristika des Spracheingangs anzeigt.
  2. System zur Sprache-in-Sprache-Umsetzung nach Anspruch 1, dadurch gekennzeichnet, daß die Spracherkennungsmittel für das Identifizieren einer Anzahl von Phonemen aus einem Segment des Spracheingangs angepaßt sind und Interpretationsmittel zum Interpretieren der Phoneme als möglicher Worte oder Wortkombinationen aufweisen, um ein Sprachmodell zu errichten, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster für die Sprache des Spracheingangs hat.
  3. System zur Sprache-in-Sprache-Umsetzung nach Anspruch 2, dadurch gekennzeichnet, daß die Satzrhythmusinformation, die aus dem Spracheingang extrahiert worden ist, die Grundtonkurve des Spracheingangs ist.
  4. System zur Sprache-in-Sprache-Umsetzung nach Anspruch 3, dadurch gekennzeichnet, daß die Zeitdifferenz in Relation zu einem Intonationsmuster-Referenzpunkt bestimmt wird.
  5. System zur Sprache-in-Sprache-Umsetzung nach Anspruch 4, dadurch gekennzeichnet, daß der Intonationsmuster-Referenzpunkt, bezogen auf welchen die Zeitdifferenz gemessen wird, der Punkt ist, an welchem eine Konsonant-/Vokal-Grenze auftritt.
  6. System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß das System ferner Mittel zum Erzielen von Information über die Satzakzente aus der Satzrhythmusinformation aufweist:
  7. System zur Sprache-in-Sprache-Umsetzung nach Anspruch 6, dadurch gekennzeichnet, daß die Spracherkennungsmittel Überprüfungsmittel zum lexikalen Überprüfen der Worte in dem Sprachmodell und zum Überprüfen der Syntax der Phrasen in dem Sprachmodell haben, wobei die Worte und Phrasen, welche linguistisch nicht möglich sind, aus dem Sprachmodell ausgeschlossen werden, in dem die Überprüfungsmittel so ausgebildet sind, daß sie die orthographische und phonetische Transkription der Worte in dem Sprachmodell überprüfen, indem die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation, Information bezüglich der Art betonter Silben und Information bezüglich des Ortes des Sekundärakzentes aufweist.
  8. System zur Sprache-in-Sprache-Umsetzung nach Anspruch 7, dadurch gekennzeichnet, daß die Akzentinformation sich auf den tonalen Wortakzent I und Akzent II bezieht.
  9. System zur Sprache-in-Sprache-Umsetzung nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, daß die Satzakzentinformation bei der Interpretation des Inhaltes des erkanntes Spracheingangs verwendet wird.
  10. System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß Satzbetonungen bestimmt werden und bei der Interpretation des Inhaltes des erkannten Spracheingangs verwendet werden.
  11. System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß das System ferner Dialogverwaltungsmittel zum Verwalten eines Dialogs mit der Datenbank hat, wobei der Dialog durch die Interpretationsmittel initiiert wird.
  12. System zur Sprache-in-Sprache-Umsetzung nach Anspruch 11, dadurch gekennzeichnet, daß der Dialog mit der Datenbank zu der Anwendung von Sprachinformationsdaten bei den Text-in-Sprache-Umsetzungsmitteln führt.
  13. System zur Sprache-in-Sprache-Umsetzung nach Anspruch 10 oder 11, dadurch gekennzeichnet, daß der Dialog mit der Datenbank unter Verwendung von SQL durchgeführt wird.
  14. Mit Stimme antwortendes Kommunikationssystem mit einem System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche.
  15. Verfahren zum Schaffen einer gesprochenen Antwort auf einen Spracheingang in einem mit Stimme antwortenden Kommunikationssystem, wobei die Antwort einen Dialekt aufweist, der an denjenigen des Spracheingangs angepaßt ist, wobei das Verfahren die Schritte aufweist Erkennen und Interpretieren des Spracheingangs und Verwenden der Interpretation zum Erzielen von Sprachinformationsdaten aus einer Datenbank zur Verwendung bei der Formulierung der gesprochenen Antwort, dadurch gekennzeichnet, daß das Verfahren weiterhin die Schritte aufweist Extrahieren der Satzrhythmusinformation aus dem Spracheingang, Erzielen von Dialektinformation aus der Satzrhythmusinformation und Umwandeln der Sprachinformationsdaten, die von der Datenbank erhalten worden sind, in die gesprochene Antwort unter Verwendung der Dialektinformation, die Schritte Bestimmen des Intonationsmusters des Grundtons des Spracheingangs und dadurch der Maximum- und Minimum-Werte der Grundtonkurve und deren entsprechende Positionen; Bestimmen des Intonationsmusters der Grundtonkurve des Sprachmodells und dadurch der Maximum- und Minimum-Werte der Grundtonkurve und deren jeweiliger Positionen; Vergleichen des Intonationsmusters des Spracheingangs mit dem Intonationsmuster des Sprachmodells, um die Zeitdifferenz zwischen dem Auftreten des Maximum- und Minimum-Wertes der Grundtonkur ven für den Spracheingang in Relation zu den Maximum- und Minimum-Werten der Grundtonkurve des Sprachmodells zu identifizieren, wobei die identifizierte Zeitdifferenz die Dialektcharakteristika des Spracheingangs anzeigt.
  16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß die Erkennung und Interpretation die Schritte Identifizieren einer Anzahl von Phonemen aus einem Segment des Spracheingangs und Interpretieren der Phoneme als mögliche Worte oder Wortkombinationen zum Errichten eines Sprachmodells aufweist, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster für die Sprache des Spracheingangs hat.
  17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, daß die Satzrhythmusinformation, welche aus dem Spracheingang extrahiert worden ist, die Grundtonkurve des Spracheingangs ist.
  18. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß die Zeitdifferenz in Relation zu einem Intonationsmuster-Referenzpunkt bestimmt wird.
  19. verfahren nach Anspruch 18, dadurch gekennzeichnet, daß der Intonationsmuster-Referenzpunkt, gegenüber welchem die Zeitdifferenz gemessen wird, der Punkt ist, an welchem eine Konsonant-/Vokal-Grenze auftritt.
  20. Verfahren nach einem der Ansprüche 15 bis 19, gekennzeichnet durch den Schritt Erzielen von Information bezüglich der Satzakzente aus der Satzrhythmusinformation.
  21. Verfahren nach Anspruch 20, dadurch gekennzeichnet, daß die Worte in dem Sprachmodell lexikalisch überprüft werden, daß die Phrasen in dem Sprachmodell bezüglich der Syntax überprüft werden, daß die Worte und Phrasen, die linguistisch nicht möglich sind, aus dem Sprachmodell ausgeschlossen werden, daß die orthographische und phonetische Transkription der Worte in dem Sprachmodell überprüft wird und daß die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation der Art betonter Silben und Information bezüglich des Ortes des Sekundärakzentes aufweist.
  22. Verfahren nach Anspruch 21, dadurch gekennzeichnet, daß die Akzentinformation sich auf den tonalen Wortakzent I und Akzent II bezieht.
  23. Verfahren nach einem der Ansprüche 20 bis 22, gekennzeichnet durch den Schritt Verwenden der Satzakzentinformation bei der Interpretation des Spracheingangs.
  24. Verfahren nach einem der Ansprüche 15 bis 23, gekennzeichnet durch den Schritt Initiieren eines Dialoges mit der Datenbank zum Erzielen von Sprachinformationsdaten zum Formulieren der gesprochenen Antwort, wobei der Dialog auf die Interpretation des Spracheingangs folgend, initiiert wird.
  25. Verfahren nach Anspruch 24, dadurch gekennzeichnet, daß der Dialog mit der Datenbank zu der Anwendung von Sprachinformationsdaten bei den Text-in-Sprache-Umsetzungsmitteln führt.
  26. Mit Stimme antwortendes Kommunikationssystem, das so ausgebildet ist, daß es ein Verfahren wie in einem der Ansprüche 15 bis 25 beansprucht, verwenden kann, um eine gesprochene Antwort auf einen Spracheingang am System zu erzeugen.
DE69723449T 1996-05-13 1997-04-08 Verfahren und system zur sprache-in-sprache-umsetzung Expired - Fee Related DE69723449T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9601811 1996-05-13
SE9601811A SE506003C2 (sv) 1996-05-13 1996-05-13 Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation
PCT/SE1997/000583 WO1997043756A1 (en) 1996-05-13 1997-04-08 A method and a system for speech-to-speech conversion

Publications (2)

Publication Number Publication Date
DE69723449D1 DE69723449D1 (de) 2003-08-14
DE69723449T2 true DE69723449T2 (de) 2004-04-22

Family

ID=20402543

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69723449T Expired - Fee Related DE69723449T2 (de) 1996-05-13 1997-04-08 Verfahren und system zur sprache-in-sprache-umsetzung

Country Status (6)

Country Link
EP (1) EP0919052B1 (de)
DE (1) DE69723449T2 (de)
DK (1) DK0919052T3 (de)
NO (1) NO318557B1 (de)
SE (1) SE506003C2 (de)
WO (1) WO1997043756A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007011039B4 (de) * 2007-03-07 2019-08-29 Man Truck & Bus Ag Freisprecheinrichtung in einem Kraftfahrzeug

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159702C (zh) * 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译***和方法
US7181397B2 (en) 2005-04-29 2007-02-20 Motorola, Inc. Speech dialog method and system
US8150020B1 (en) 2007-04-04 2012-04-03 At&T Intellectual Property Ii, L.P. System and method for prompt modification based on caller hang ups in IVRs
US8024179B2 (en) * 2007-10-30 2011-09-20 At&T Intellectual Property Ii, L.P. System and method for improving interaction with a user through a dynamically alterable spoken dialog system
JP5282469B2 (ja) 2008-07-25 2013-09-04 ヤマハ株式会社 音声処理装置およびプログラム
CN108369804A (zh) * 2015-12-07 2018-08-03 雅马哈株式会社 语音交互设备和语音交互方法
CN113470670B (zh) * 2021-06-30 2024-06-07 广州资云科技有限公司 电音基调快速切换方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2165969B (en) * 1984-10-19 1988-07-06 British Telecomm Dialogue system
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007011039B4 (de) * 2007-03-07 2019-08-29 Man Truck & Bus Ag Freisprecheinrichtung in einem Kraftfahrzeug

Also Published As

Publication number Publication date
SE9601811L (sv) 1997-11-03
NO318557B1 (no) 2005-04-11
WO1997043756A1 (en) 1997-11-20
EP0919052A1 (de) 1999-06-02
SE9601811D0 (sv) 1996-05-13
NO985179L (no) 1998-11-11
SE506003C2 (sv) 1997-11-03
DK0919052T3 (da) 2003-11-03
NO985179D0 (no) 1998-11-06
EP0919052B1 (de) 2003-07-09
DE69723449D1 (de) 2003-08-14

Similar Documents

Publication Publication Date Title
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE3788488T2 (de) Sprachenübersetzungssystem.
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
EP1217610A1 (de) Verfahren und System zur multilingualen Spracherkennung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP3010014A1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE69723449T2 (de) Verfahren und system zur sprache-in-sprache-umsetzung
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners
DE60217313T2 (de) Verfahren zur durchführung der spracherkennung dynamischer äusserungen
EP1518221A1 (de) Verfahren zur naturlichen spracherkennung auf basis einer generativen transformations-/phrasenstruktur-grammatik
EP1659573A2 (de) Verfahren und Anordnung zur Bewertung des Emotionszustands einer Person anhand sprachlicher Äußerungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee