DE69428612T2 - Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen - Google Patents

Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen

Info

Publication number
DE69428612T2
DE69428612T2 DE69428612T DE69428612T DE69428612T2 DE 69428612 T2 DE69428612 T2 DE 69428612T2 DE 69428612 T DE69428612 T DE 69428612T DE 69428612 T DE69428612 T DE 69428612T DE 69428612 T2 DE69428612 T2 DE 69428612T2
Authority
DE
Germany
Prior art keywords
signal
time
length
time delay
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69428612T
Other languages
English (en)
Other versions
DE69428612D1 (de
Inventor
Masayuki Misaki
Ryoji Suzuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP00973793A external-priority patent/JP3147562B2/ja
Priority claimed from JP14922493A external-priority patent/JP3156020B2/ja
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69428612D1 publication Critical patent/DE69428612D1/de
Application granted granted Critical
Publication of DE69428612T2 publication Critical patent/DE69428612T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Noise Elimination (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Durchführen einer Zeitskalen-Modifikation eines Sprachsignals, wodurch die Zeitdauer des Sprachsignals verändert wird, ohne die Grundfrequenz-Komponenten des Sprachsignals zu verändern.
  • Bisher wurde eine Sprechzeit-Modifikations-Vorrichtung verwendet, um ein Sprachsignal mit einer höheren Geschwindigkeit oder einer langsameren Geschwindigkeit für Zuhörer abzuspielen, welches auf Audio-Bändern oder ähnlichem aufgezeichnet wurde.
  • Eine solche Sprachen-Zeitskalen-Modifikationsvorrichtung ist in dem US-Patent Nr. 3,786,195 "VARIABLE DELAY LINE SIGNAL PROCESSOR FOR SOUND REPRODUCTION" offenbart. Diese Sprach-Zeitskalen-Modifikations-Vorrichtung umfasst eine variable Verzögerungsleitung, eine Flanken(ramp)-Pegel- und Amplituden-Veränderungsvorrichtung, eine Ausblendungsschaltung, einen Ausblendungs-Impuls-Generator und einen Flanken-Impulsfolgen-Generator.
  • Die Arbeitsweise der Sprach-Zeitskalen-Modifikationsvorrichtung mit der obigen Anordnung wird nachfolgend beschrieben werden:
  • Zuerst wird ein Eingangssignal in die variable Verzögerungsleitung geschrieben. Als nächstes steuert der Flanken-Impulszug-Generator die Flanken-Pegel- und Amplituden-Veränderungsvorrichtung und den Ausblenungs-Impuls-Generator in Abhängigkeit von dem Zeitskalen-Modifikations-Verhältnis. Die Flankenpegel- und Amplitudenveränderungsvorrichtung liest dann das Eingangssignal aus der variablen Verzögerungsleitung mit einer Geschwindigkeit, welche von einer Geschwindigkeit beim Schreiben verschieden ist, in Abhängigkeit von dem Zeitskalen- Modifikationsverhältnis. Insbesondere wird für ein Abspielen eines Sprachsignals bei einer höheren Geschwindigkeit das Lesen bei einer langsameren Rate durchgeführt als das Schreiben, und für ein Abspielen eines Sprachsignals bei einer langsameren Geschwindigkeit wird der Lesevorgang bei einer höheren Rate als der Schreibvorgang durchgeführt. Bei unstetigen Abschnitten zwischen Blöcken wendet die Ausblendungsschaltung einen Stummschaltungsvorgang auf die Ausgabe der variablen Verzögerungsleitung an.
  • Bei der obigen Anordnung entstehen jedoch Probleme, wenn die Geschwindigkeit erhöht wird; d. h., dass sich die Erkennbarkeit bzw. Verständlichkeit von Konsonanten, etc. verschlechtert aufgrund der Datenverringerung, und weiterhin werden Unstetigkeiten der Signalamplitude eingebracht, weil die Stummschaltung bei unstetigen Abschnitten zwischen den Blöcken durchgeführt wird, was zu einer Sprachwiedergabe führt, der es an Natürlichkeit fehlt.
  • Eine andere Technik einer Sprach-Zeitskalen-Modifikation ist offenbart in "Real-Time Implementation of Time Domain Harmonic Scaling of Speech for Rate Modification and Coding" von R.V. Cox u.a.., IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Band ASSP-31, Nr. 1, Seiten 258-272, Februar 1983.
  • Diese Sprach-Zeitskalen-Modifikationstechnik wird Time Domain Harmonic Scaling (TDHS) genannt, bei welcher eine Tonhöhen(pitch)-Periode p aus einem Eingangssignal S(n) gewonnen wird und jedes Eingangssignal S(n) wird mit einem Dreiecksfenster (Wc(n) oder We(n)) gewichtet und addiert, um so ein Ausgangssignal (Sc(n) oder Se(n)) zu erhalten.
  • Sc(n) = Wc(n)S(n) + [1 - We(n)]S(n + p) (Zeitskalen-Kompression)
  • Sc(n) = We(n)S(n) + [1 - We(n)]S(n - p) (Zeitskalen-Expansion)
  • Hierin wird das Dreiecksfenster (We(n) oder We(n)) aus der folgenden Gleichung erhalten:
  • We(n) = 1 - n/(Bc - 1) n = 0, 1, .... Bc (Zeitskalen-Kompression)
  • We(n) = 1 - n/(Be - 1) n = 0, 1, .... Be (Zeitskalen-Expansion) wobei die Fensterlänge bestimmt wird durch die folgende Gleichung:
  • 'Bc = p/(1/α - 1)(Zeitskalen-Kompression),
  • Be = αp/(α - 1)(Zeitskalen-Expansion),
  • Be: Fensterlänge (Zeitskalen-Kompression),
  • Be: Fensterlänge (Zeitskalen-Expansion),
  • p: Tonhöhen-Periode
  • α: Zeitskalen-Modifikationsverhältnis
  • = (Ausgabezeitdauer)/(Eingabezeitdauer).
  • Die TDHS verwendet eine Tonhöhen-Periode, jedoch ist es schwierig, die Tonhöhen- Periode genau zu ermitteln. Insbesondere ist es extrem schwierig eine Tonhöhen- Periode aus einem Musiksignal oder einem Signal, welches mit Rauschen überlagert ist, zu gewinnen. Als Folge davon ist es schwierig, ein Eingangssignal abzutasten unter Verwendung der Länge (Bc oder Be), welche festgelegt wird in Zeitdauern oder Ausdrücken der Tonhöhenperiode p, und durch Überlagern bzw. Überlappen oder Verbinden von Eingangssignalen, welche auf der Grundlage einer nicht korrekten Tonhöhenperiode abgetastet wurden, kann ein Ausgangssignal mit guter Qualität nicht erhalten werden.
  • Des Weiteren wird die Durchführung der TDHS durchgeführt unter der Voraussetzung, dass ein Eingangssignal, welches unter Verwendung eines Dreieckfensters abgetastet wurde, eine konstante Tonhöhenperiode innerhalb dieses Fensters aufweist; in der Realität wird jedoch, wenn das Zeitskalen- Modifikationsverhältnis ä in der Nähe von 1 liegt, die Fensterlänge länger (z.B. Bc = 9p für α = 0,9 und Be = 11p für α = 1,1), und es ist unwahrscheinlich, dass die Tonhöhen-Periode von Sprache während eines solchen langen Zeitabschnittes konstant sein sollte. Dies führt zu einer weiteren Verschlechterung der Klangqualität.
  • Weiterhin umfasst das ganze Verfahren eine erhöhte Anzahl von Verarbeitungsschritten, weil alle Ausgangssignale aus Signalen aufgebaut sind, welche abgetastet wurden, während die Eingangssignale mit Dreiecksfenstern gewichtet wurden, so dass sich die Klangqualität erheblich verschlechtert als Ergebnis der Verarbeitung.
  • Die EP 0 427 953 A2 offenbart eine Vorrichtung gemäß dem Oberbegriff von Anspruch 1. Ein Verfahren für eine hoch-qualitative Zeitskalen-Modifikation von Sprachsignalen mit niedrigem Berechnungsaufwand bei einem willkürlichen Zeitskalen-Faktor ist beschrieben von R. Suzuki und M. Misaki in "Time-scale modification of speech signals using cross-correlation" in International Conference on Consumer Electronics 92, Juni 1992, Rosemont, IL, US, Seiten 166-167. Die US PS Nr. 4,864,620 betrifft eine Meldung zur Verarbeitung von Zeitbereichs- Sprachsignalen, welche eine Sprachinformation enthalten, um die Rate der Widergabe davon zu verändern, ohne die Sprache zu verändern.
  • Es ist das Ziel der Erfindung, ein Verfahren und eine Vorrichtung zur Verfügung zu stellen zum Durchführen einer Zeitskalen-Modifikation von Eingangssignalen, welche die entsprechenden Ausgangssignale erzeugen bei verringertem Auftreten einer Signal-Unstetigkeit und ohne erheblichen Datenverlust.
  • Dieses Ziel wird gelöst durch die Gegenstände der Ansprüche 1, 2 und 6.
  • Bevorzugte Ausführungsformen sind in den Unteransprüchen beschrieben.
  • Gemäß der oben beschriebenen Anordnung ist das Signal, welches durch die Addition bzw. Hinzufügung erzeugt wird, weniger anfällig bezüglich einer Amplituden- Unstetigkeit, weil das erste Signal und das zweite Signal zusammenaddiert bzw. zusammengefügt werden, nachdem sie multipliziert wurden mit den Fensterfunktionen, deren Amplituden sich auf eine komplementäre Art verändern, und weil das erste Signal und das zweite Signal, welche mit ihren jeweiligen Fensterfunktionen multipliziert wurden, zusammenaddiert wurden bei der Position der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, wird die Anzahl des Auftretens bzw. Vorkommens einer Phasen-Unstetigkeit verringert; des Weiteren kann eine gewünschte Zeitskalen-Modifikation ohne einen signifikanten Verlust von Signalen erreicht werden, weil das Signal, welches aus der Addition des ersten Signals und des zweiten Signals multipliziert mit ihren jeweiligen Fensterfunktionen resultiert, und das dritte Signal, welches diesem erhaltenen Signal nachfolgt, während der Zeitdauer ausgegeben werden, welche bestimmt wird auf der Grundlage des Zeitskalen-Modifikations-Verhältnis α, der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, und der Zeitdauer T.
  • Demzufolge ermöglicht die hierin beschriebene Erfindung den Vorteil des Schaffens eines Verfahrens und einer Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen, welche natürlich klingende Sprache erzeugen können bei verringertem Auftreten einer Signalunstetigkeit und ohne erheblichen Datenverlust.
  • Diese und andere Vorteile der vorliegenden Erfindung werden den Fachleuten offensichtlich werden beim Lesen und Verstehen der folgenden ausführlichen Beschreibung unter Bezugnahme auf die beiliegenden Figuren.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 ist ein Blockdiagramm und zeigt die Anordnung einer Sprach- Zeitskalen-Modifikationsvorrichtung gemäß einer ersten Ausführungsform der Erfindung.
  • Fig. 2 ist ein Blockdiagramm und zeigt die Anordnung eines Korrelators bzw. Korrelationsanalysators bei der Sprach-Zeitskalen- Modifikationsvorrichtung gemäß der ersten Ausführungsform der Erfindung.
  • Fig. 3 ist ein Ablaufdiagramm und veranschaulicht ein Sprach-Zeitskalen- Modifikationsverfahren gemäß der ersten Ausführungsform der Erfindung.
  • Fig. 4 ist ein Ablaufdiagramm und veranschaulicht, wie eine Suche durchgeführt wird nach einer Zeitverzögerung Tc, bei welcher der Wert einer Korrelationsfunktion am größten wird, bei dem Sprach-Zeitskalen- Modifikationsverfahren gemäß der ersten Ausführungsform der Erfindung.
  • Fig. 5A bis 5C sind schematische Schaubilder und veranschaulichen, wie ein erstes Signal und ein zweites Signal multipliziert werden mit ihren jeweiligen Fensterfunktionen und zusammenaddiert werden bei dem Sprach-Zeitskalen-Modifikationsverfahren gemäß der ersten Ausführungsform der Erfindung.
  • Fig. 6A und 6B sind schematische Diagramme und veranschaulichen ein Eingangssignal und ein Ausgangssignal bei dem Sprach-Zeitskalen- Modifkationsverfahren gemäß der ersten Ausführungsform der Erfindung.
  • Fig. 7 ist ein Ablaufdiagramm und veranschaulicht ein anderes Sprach- Zeitskalen-Modifikationsverfahren gemäß der ersten Ausführungsform der Erfindung.
  • Fig. 8A bis 8C sind schematische Schaubilder und veranschaulichen, wie ein erstes Signal und ein zweites Signal multipliziert werden mit ihren jeweiligen Fensterfunktionen und zusammenaddiert werden bei dem Sprach-Zeitskalen-Modifikationsverfahren gemäß der ersten Ausführungsform der Erfindung.
  • Fig. 9A und 9B sind schematische Schaubilder und veranschaulichen ein Eingangssignal und ein Ausgangssignal bei dem Sprach-Zeitskalen- Modifikationsverfahren gemäß der ersten Ausführungsform der Erfindung.
  • Fig. 10 ist ein Blockdiagramm und zeigt die Anordnung einer Sprach- Zeitskalen-Modifikationsvorrichtung gemäß der zweiten Ausführungsform der Erfindung.
  • Fig. 11 ist ein Blockdiagramm und zeigt einen Korrelator bei der Sprach- Zeitskalen-Modifikationsvorrichtung gemäß der zweiten Ausführungsform der Erfindung.
  • Fig. 12 ist ein Ablaufdiagramm und veranschaulicht ein Sprach-Zeitskalen- Modifikationsverfahren gemäß der zweiten Ausführungsform der Erfindung.
  • Fig. 13 ist ein Ablaufdiagramm und veranschaulicht ein Verfahren für eine Korrelationsfunktions-Berechnung bei dem Sprach-Zeitskalen- Modifikationsverfahren gemäß der zweiten Ausführungsform der Erfindung.
  • Fig. 14 ist ein Ablaufdiagramm und veranschaulicht ein Verfahren zum Berechnen einer Zeitdauer Tt bei dem Sprach-Zeitskalen- Modifikationsverfahren gemäß der zweiten Ausführungsform der Erfindung.
  • Fig. 15 ist ein schematisches Schaubild und zeigt ein Eingangssignal und ein Ausgangssignal bei dem Sprach-Zeitskalen-Modifikationsverfahren gemäß der zweiten Ausführungsform der Erfindung.
  • Fig. 16 ist ein Ablaufdiagramm und veranschaulicht ein anderes Sprach- Zeitskalen-Modifikationsverfahren gemäß der zweiten Ausführungsform der Erfindung.
  • Fig. 17 ist ein Ablaufdiagramm und veranschaulicht ein Verfahren zur Berechnung einer Zeitdauer Tt bei dem Sprach-Zeitskalen- Modifikationsverfahren gemäß der zweiten Ausführungsform der Erfindung.
  • Fig. 18 ist ein schematisches Schaubild und zeigt ein Eingangssignal und ein Ausgangssignal bei dem Sprach-Zeitskalen-Modifikationsverfahren gemäß der zweiten Ausführungsform der Erfindung.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Eine erste Ausführungsform der Sprach-Zeitskalen-Modifikationsvorrichtung und des Verfahrens der Erfindung wird nachfolgend unter Bezugnahme auf die Zeichnungen beschrieben werden.
  • Die vorliegende Erfindung beabsichtigt eine Sprach-Zeitskalen- Modifikationsvorrichtung und Verfahren zur Verfügung zu stellen, welche mit einfacher Hardware realisiert werden können und welche eine natürlich klingende Sprache erzeugen können bei verringertem Auftreten einer Unstetigkeit in der Signalamplitude und Phase und ohne einen signifikanten Verlust von Daten.
  • Fig. 1 zeigt eine Anordnung einer Sprach-Zeitskalen-Modifikationsvorrichtung gemäß der ersten Ausführungsform der Erfindung. Wie in Fig. 1 gezeigt, umfasst die Sprach-Zeitskalen-Modifikationsvorrichtung einen A/D Wandler 11, einen Puffer 12, eine Ratensteuerschaltung 13, einen Demultiplexer 14, einen ersten Speicher 15 zum Speichern eines Eingangssignals mit einer Zeitdauer T, einen zweiten Speicher 16 zum Speichern eines Eingangssignals mit der Zeitdauer T, welches dem Eingangssignal folgt, welches in dem ersten Speicher 15 gespeichert ist, einen Korrelator bzw. Korrelationsanalysator 17 zum Ausgeben einer Korrelationsfunktion zwischen den Inhalten des ersten Speichers 15 und den Inhalten des zweiten Speichers 16 und zum Bestimmen einer Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, einen Fensterfunktionsgenerator 18, einen ersten Multiplizierer 19, einen zweiten Multiplizierer 20, einen Addierer 21, einen Multiplexer 22 und einen DIA Wandler 23.
  • Die Arbeitsweise der Sprach-Zeitskalen-Modifikationsvorrichtung mit der obigen Anordnung wird nachfolgend beschrieben werden.
  • Als erstes wird ein analoges Eingangssignal umgewandelt durch den A/D Wandler 11 in ein digitales Signal, und dann in den Puffer 12 geschrieben. Der Demultiplexer 14 leitet das Eingangssignal, welches in dem Puffer 12 gespeichert ist, zu dem ersten Speicher 15 während der Dauer der Zeitdauer T, und leitet dann das Eingangssignal, welches auf die Inhalte des ersten Speichers 15 folgt zu dem zweiten Speicher 16 während der Dauer der Zeitdauer T.
  • Der Korrelator 17 berechnet die Korrelationsfunktion durch das zeitliche Versetzen bzw. Verschieben der Inhalte des ersten Speichers 15 von den Inhalten des zweiten Speichers 16, und bestimmt die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird. Die bestimmte Zeitverzögerung Tc wird der Ratensteuerschaltung 13, dem Fensterfunktionsgenerator 18, und dem Addierer 21 zugeführt.
  • Basierend auf der Zeitverzögerung Tc von dem Korrelator 17 und dem Zeitskalen- Modifikationsverhältnis α erzeugt der Fensterfunktionsgenerator 18 eine erste Fensterfunktion, deren Amplitude sich mit der Zeit graduell bzw. allmählich erhöht oder verringert, und führt die erste Fensterfunktion dem ersten Multiplizierer 19 zu. Der Fensterfunktionsgenerator 18 erzeugt auch eine zweite Fensterfunktion, deren Amplitude komplementär zu der ersten Fensterfunktion ist, und führt die zweite Fensterfunktion dem zweiten Multiplizierer 20 zu. Der erste Multiplizierer 19 multipliziert die Inhalte des ersten Speichers 15 mit der ersten Fensterfunktion von dem Fensterfunktionsgenerator 18, während der zweite Multiplizierer 20 die Lnhalte des zweiten Speichers 15 mit der zweiten Fensterfunktion von dem Fensterfunktionsgenerator 18 multipliziert.
  • Basierend auf der Zeitverzögerung Tc von dem Korrelator 17 addiert der Addierer 21 die Ausgabe von dem ersten Multiplizierer 19 und die Ausgabe von dem zweiten Multiplizierer 20 miteinander, indem die letztere von der ersteren verschoben wird, um die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, und stellt die erhaltene Summe dem Multiplexer 22 zur Verfügung.
  • Die Ratensteuerschaltung 13 steuert den Demultiplexer 14, um das Eingangssignal, welches in dem Puffer 12 gespeichert ist, zu dem Multiplexer 22 zu leiten, so dass die Summe der Zeitdauer der Ausgabe des Addierers 21 und die Zeitdauer des Eingangssignals, welches folgt auf die Inhalte des ersten oder zweiten Speichers 15 oder 16, gleich der Zeitdauer wird, welche bestimmt wurde auf der Grundlage des Zeitskalenmodifikationsverhältnisses α (= Ausgabezeitdauer/Eingabezeitdauer), der Zeitverzögerung Tc von dem Korrelator 17, und der Zeitdauer T. Dann schaltet der Multiplexer 22 zwischen der Ausgabe des Addierers 21 und der Ausgabe des Demultiplexers 14 in Abhängigkeit von einem Steuersignal, welches von der Ratensteuerschaltung 13 zugeführt wird, und gibt die Ausgabe an den DIA Wandler 23 ab.
  • Der D/A Wandler 23 wandelt das digitale Signal, welches von dem Multiplexer 22 geliefert wird, in ein analoges Signal um. Schließlich bestimmt die Ratensteuerschaltung 13 die Startposition des Eingangssignals, basierend auf dem Zeitskalen-Modifikationsverhältnis α, der Zeitverzögerung Tc von dem Korrelator 17, und der Zeitdauer T, welches von dem Puffer 12 zu dem ersten Speicher 15 bei dem nächsten Verarbeitungsschritt geleitet wird.
  • Bei dieser Ausführungsform können die Inhalte des Puffers 12 von dem Demultiplexer 14 direkt zu dem Korrelator 17, dem ersten Multiplizierer 19, dem zweiten Multiplizierer 20 bzw. dem Multiplexer 22 geleitet werden, weil die Inhalte des Puffers 12 wiederholt werden wie die Inhalte des ersten Speichers 15 und die Inhalte des zweiten Speichers 16. Der erste Speicher 15 und der zweite Speicher 16 können dann ausgelassen bzw. eliminiert werden.
  • Fig. 2 zeigt eine Anordnung des Korrelators 17 bei der Sprach-Zeitskalen- Modifikationsvorrichtung gemäß der obigen Ausführungsform der Erfindung. Die Sprach-Zeitskalen-Modifikationsvorrichtung umfasst einen Eingabeanschluss 201 zum Eingeben der Inhalte des ersten Speichers 15, einen Eingabeanschluss 202 zum Eingeben der Inhalte des zweiten Speichers 16 und einen Ausgabeanschluss 211. Die Sprach-Zeitskalen-Modifikationsvorrichtung umfasst weiter einen Speicher 203 zum Speichern der Inhalte des ersten Speichers 15 für die Zeitdauer T, ein Schieberegister 204 mit einer Zeitdauer von (2T - 1) zum Speichern der Inhalte des zweiten Speichers 16 für die Zeitdauer T und zum Einführen bzw. Einfügen einer Verzögerung bei jedem Abtastwert (sample), Multiplizierer 2051 bis 205T, welche in einem Feld bzw. Array angeordnet sind, zum Multiplizieren der Inhalte des Speichers 203 mit den Inhalten des Schieberegisters 204, einen Addierer 206 zum Erhalten der Gesamtsumme der Ausgaben der Multiplizierer 2051 bis 205T, einen Komparator 207, einen Speicher 208 für den maximalen Wert der Korrelationsfunktion zum Speichern des maximalen Werts der Ausgabe des Addierers 206, welche über den Komparator 207 zugeführt wird, eine Verzögerungssteuerung 209 zum Steuern der Zeitverzögerung des Schieberegisters 204 und einen Speicher 210 für eine Zeitverzögerung zum Speichern der Zeitverzögerung des Schieberegisters 204, bei welcher die Korrelationsfunktion am größten wird.
  • Die Arbeitsweise des so konfigurierten Korrelators 17 der Sprach-Zeitskalen- Modifikationsvorrichtung wird nachfolgend beschrieben werden.
  • Bei den Anfangszuständen werden die Inhalte des Schieberegisters 204 und die Inhalte des Speichers 208 für den maximalen Wert der Korrelationsfunktion auf Null gelöscht, und für die Verzögerungssteuerung 209 und den Speicher 210 für die Zeitverzögerung wird die Zeitverzögerung τ initialisiert auf -T + 1.
  • Dann werden die Inhalte des ersten Speichers 15 angelegt an den Eingangsanschluss 201 und übertragen zu dem Speicher 203, während die Lnhalte des zweiten Speichers 16 angelegt werden an den Eingangsanschluss 202 und übertragen werden zu der äußerst linken Position des Schieberegisters 204. Als Nächstes multiplizieren die Multiplizierer 2051-205T die Inhalte des Speichers 203 mit den Inhalten des Schieberegisters 204. Der Addierer 206 berechnet die Gesamtsumme der Ausgaben der Multiplizierer 2051-205T und gibt die Gesamtsumme als einen Wert einer Korrelationsfunktion bei der Zeitverzögerung τ aus.
  • Der Komparator 207 vergleicht dann die Ausgabe des Addierers 206 mit dem Wert, welcher in dem Speicher 208 für den maximalen Wert der Korrelationsfunktion gespeichert ist. Wenn der Komparator 207 bestimmt, dass die Ausgabe des Addierers 206 größer ist als der Wert, welcher in dem Speicher 208 für den maximalen Wert der Korrelationsfunktion gespeichert ist, liefert der Komparator 207 die Ausgabe des Addierers 206 zu dem Speicher 208 für den maximalen Wert der Korrelationsfunktion, und steuert zur gleichen Zeit den Speicher 210 für die Zeitverzögerung, um die Ausgabe τ von der Verzögerungssteuerung 209 als eine Zeitverzögerung Tc zu speichern, bei welcher der Wert der Korrelationsfunktion am größten wird.
  • Als Nächstes verzögert die Verzögerungssteuerung 209 die Inhalte des Schieberegisters 204 um einen Abtastwert (sample) nach rechts und erhöht die Zeitverzögerung τ um 1. Dann kehrt das Verfahren zurück zu dem Schritt, wo die Multiplizierer 2051-205T die Inhalte des Speichers 203 mit den Inhalten des Schieberegisters 204 multiplizieren. Dieses Verfahren wird wiederholt, bis unmittelbar bevor das Schieberegister 204 leer wird (τ = +T - 1). Wenn diese Wiederholungen abgeschlossen sind, werden die Inhalte, welche in dem Zeitverzögerungsspeicher 210 gespeichert sind, ausgegeben von dem Ausgabeanschluss 211 als die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion zwischen den Inhalten des ersten Speichers 15 und den Inhalten des zweiten Speichers 16 am größten wird.
  • Bei der obigen Ausführungsform wird der Suchbereich der Korrelationsfunktion festgelegt auf -T + 1 ≤ τ ≤ +T - 1, jedoch kann dies festgelegt werden bei -T + k ≤ τ ≤ +T - j (wobei T > k > 1, T > j > 1). In dem letzteren Fall kann nicht nur die Zeitdauer bzw. zeitliche Länge des Schieberegisters 204 verkürzt werden, sondern die Anzahl der Korrelationsfunktionsberechnungen kann auch verringert werden.
  • Des Weiteren kann bei der obigen Ausführungsform, weil der Speicher 203 verwendet wird zum Speichern der gleichen Inhalte wie in dem ersten Speicher 15 gespeichert, dieser so konfiguriert werden, dass die Inhalte des ersten Speichers 15 direkt in die Multiplizierer 2051-205T eingegeben werden. In diesem Fall kann der Speicher 203 eliminiert bzw. ausgelassen werden.
  • Des Weiteren kann bei der obigen Ausführungsform, weil die Inhalte, welche in dem Schieberegister 204 gespeichert werden sollen, die gleichen sind, wie die Inhalte, welche in dem zweiten Speicher 16 gespeichert werden, dieser so konfiguriert werden, dass die Inhalte des zweiten Speichers 16 sequentiell in die Multiplizierer 2051-205T eingegeben werden, jedes Mal wenn die Zeitverzögerung τ verändert wird. In diesem Fall kann das Schieberegister 204 eliminiert werden.
  • Wie oben erwähnt, multiplizieren gemäß der Sprachzeitskalenmodifikationsvorrichtung der ersten Ausführungsform der Erfindung der erste Multiplizierer 19 und der zweite Multiplizierer 20 die Inhalte des ersten Speichers 15 und die Inhalte des zweiten Speichers 16 mit Fensterfunktion, deren Amplitude sich graduell bzw. allmählich erhöht oder verringert, ausgegeben von dem Fensterfunktionsgenerator 18. Der Addierer 21 addiert die Ausgaben des ersten Multiplizierers 19 und des zweiten Multiplizierers 20 miteinander. Dies ermöglich es, ein natürlich klingendes Sprachsignal auszugeben mit einem verringerten Auftreten einer Unstetigkeit der Signalamplitude und ohne einen signifikanten Verlust von Daten.
  • Des Weiteren berechnet der Korrelator 17 die Korrelationsfunktion zwischen den Inhalten des ersten Speichers 15 und den Inhalten des zweiten Speichers 16. Der Addierer 21 addiert die Ausgaben des ersten Multiplizierers 19 und des zweiten Multiplizierers 20 zusammen mit einer relativen Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird. Dies ermöglicht es, ein Sprachsignal mit einer hohen Qualität und mit einem verringerten Auftreten einer Unstetigkeit in der Signalphase auszugeben.
  • Des Weiteren steuert die Ratensteuerschaltung 13 den Demultiplexer 14 und den Multiplexer 22, so dass die Summe der zeitlichen Länge bzw. Zeitdauer der Ausgabe des Addierers 21, die zeitliche Länge bzw. Zeitdauer des Eingangssignals, welches auf die Inhalte des ersten Speichers 15 oder die Inhalte des zweiten Speichers 16 von dem Puffer 12 folgt gleich ist zu einer Zeitdauer, welche bestimmt wird auf der Grundlage des Zeitskalenmodifikationsverhältnis α, der Zeitverzögerung Tc von dem Korrelator 17 und der Zeitdauer T. Dies ermöglicht es leicht, das Zeitskalenmodifikationsverhältnis zu verändern, die Verschiebung bzw. Versetzung des Zeitskalenmodifikationsverhältnisses zu absorbieren bzw. zu neutralisieren, welche verursacht wird durch Addieren der Ausgaben des ersten Multiplizierers 19 und des zweiten Multiplizierers 20 zusammen mit einer relativen Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird und ein Sprachsignal ohne einen erheblichen Verlust von Daten auszugeben.
  • Als Nächstes wird das Sprach-Zeitskalen-Modifikationsverfahren der vorliegenden Erfindung nachfolgend unter Bezugnahme auf die Zeichnungen beschrieben werden. Es wird verstanden werden, dass das Verfahren durchgeführt werden kann mit der oben beschriebenen Sprach-Zeitskalen-Modifikationsvorrichtung.
  • Hiernach wird das Sprach-Zeitskalen-Modifikationsverfahren, welches in einem Fall einsetzbar bzw. anwendbar ist, wenn die Bedingung, dass das Zeitskalenmodifikationsverhältnis α größer als oder gleich 1,0 ist (α ≥ 1,0) erfüllt ist, beschrieben werden.
  • Dieses Verfahren ist vorgesehen bzw. geeignet, um ein natürlich klingendes Sprachsignal zu erzeugen mit verringertem Auftreten einer Unstetigkeit der Signalamplitude und Phase und ohne irgendeinen Datenverlust, innerhalb des Bereiches des Zeitskalenmodifikationsverhältnisses α ≥ 1,0.
  • Hierin ist das Zeitskalenmodifikationsverhältnis α definiert durch die folgende Gleichung.
  • Zeitskalenmodifikationsverhältnis α = Wiedergabezeitdauer nach der Zeitskalenmodifikation/Wiedergabezeitdauer mit einer normalen Rate.
  • Fig. 3 zeigt ein Ablaufdiagramm, welches das Sprach-Zeitskalen- Modifikationsverfahren veranschaulicht. Die Arbeitsweise dieses Sprach-Zeitskalen- Modifikationsverfahrens wird nachfolgend beschrieben werden.
  • Zuerst wird bei Schritt 31 ein Eingabezeiger (input pointer) auf 0 rückgesetzt. Als Nächstes wird bei Schritt 32 ein erstes Signal (XA) mit einer zeitlichen Länge bzw. Zeitdauer T aus einer Position ausgelesen, welche durch den Eingabezeiger bezeichnet ist. Bei Schritt 33 wird der Eingabezeiger erhöht um T. Dann wird bei Schritt 34 ein zweites Signal (XB) mit der Zeitdauer T aus einer Position gelesen, welche durch den Eingabezeiger angezeigt wird.
  • Bei Schritt 35 wird ein Wert der Korrelationsfunktion zwischen dem ersten Signal XA und dem zweiten Signal XB berechnet, und eine Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, wird bestimmt.
  • Als Nächstes wird bei Schritt 36, basierend auf der zeitlichen Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, das erste Signal XA multipliziert mit einer Fensterfunktion mit sich graduell bzw. allmählich erhöhender Amplitude. Bei Schritt 37 wird basierend auf der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, das zweite Signal XB multipliziert mit einer Fensterfunktion mit graduell bzw. allmählich sich verringernder Amplitude.
  • Dann werden bei Schritt 38 das erste Signal, welches mit der Fensterfunktion multipliziert wurde und das zweite Signal, welches mit der Fensterfunktion multipliziert wurde, zusammenaddiert nachdem diese verschoben wurden mit einer relativen Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird. Als Nächstes werden bei Schritt 39 das Ergebnis der Addition bei Schritt 38 und ein Signal, welches auf das erste Signal XA folgt, d. h. ein drittes Signal (XC) beginnend von einer Position, welche gegenwärtig bzw. aktuell angezeigt wird durch den Eingabezeiger, ausgegeben während einer Zeitdauer definiert durch α(T - Tc)/(α - 1). Dann wird, bei Schritt 40 der Eingabezeiger erhöht um (2T - αT - Tc)/(α - 1). Schließlich kehrt das Verfahren zurück zu Schrift 32.
  • Fig. 4 zeigt das Ablaufdiagramm, welches die Verarbeitung bei Schritt 35 in Fig. 3 detailliert darstellt, bei welcher die Korrelationsfunktion zwischen dem ersten Signal XA und dem zweiten Signal XB berechnet wird und eine Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, wird bestimmt.
  • Der Verarbeitungsvorgang wird nachfolgend beschrieben werden.
  • Zuerst werden bei Schritt 401, Schritt 402 und Schritt 403 die Zeitverzögerung τ, die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, und der maximale Wert Rmax der Korrelationsfunktion jeweils auf 0 gesetzt bzw. initialisiert. Als Nächstes wird bei Schritt 404 der Wert der Korrelationsfunktion R(τ) zwischen dem ersten Signal XA und dem zweiten Signal XB, wenn die Zeitverzögerung τ nicht negativ ist, berechnet in Abhängigkeit von der folgenden Gleichung.
  • R(τ) = x(i + m + t)·x(i + T + m)
  • wobei τmax+ ≥ τ ≥ 0
  • R(τ): Korrelationsfunktion für die Zeitverzögerung -r
  • x(·): Eingangssignal
  • i: Startpunkt des ersten Signals XA
  • T: Zeitliche Länge des ersten Signals XA und des zweiten Signals XB
  • Dann verzweigt bei Schritt 405, wenn der Wert der Korrelationsfunktion R(τ), welche erhalten wurde bei Schritt 404, nicht größer ist als der maximale Wert Rmax der Korrelationsfunktion, welcher vorher erhalten wurde, das Verfahren zu Schritt 408 ab. Sonst schreitet das Verfahren bei Schritt 406 fort, bei welchem der maximale Wert Rmax der Korrelationsfunktion aktualisiert wird durch R(τ), und bei Schritt 407 wird die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, aktualisiert mit τ. Als Nächstes wird bei Schritt 408 die zeitliche Verzögerung τ erhöht um 1. Bei Schritt 409, wenn die Zeitverzögerung τ nicht größer ist als ein vorgegebener Wert τmax+, kehrt das Verfahren zurück zu Schritt 404. Die Verarbeitungsschritte 404 bis 408 werden wiederholt, bis die Zeitverzögerung τ gleich dem vorgegebenen Wert τmax+ wird.
  • Dann wird bei Schritt 410 die Zeitverzögerung initialisiert auf -1. Als Nächstes wird bei Schritt 411 der Wert der Korrelationsfunktion R(τ) zwischen dem ersten Signal XA und dem zweiten Signal XB, wenn die Zeitverzögerung τ negativ ist, berechnet, in Abhängigkeit von der folgenden Gleichung.
  • R(τ) = x(i + m)·x(i + T - r + m)
  • wobei τmax- ≤ τ ≤0
  • Dann verzweigt das Verfahren zu Schritt 415, bei Schritt 412, wenn der Wert der Korrelationsfunktion R(τ), erhalten bei Schritt 411, nicht größer ist als der maximale Wert Rmax der Korrelationsfunktion, welcher vorher erhalten wurde. Sonst schreitet das Verfahren zu Schritt 413 fort, bei welchem der maximale Wert Rmax der Korrelationsfunktion aktualisiert wird, so dass er R(τ) ist, und bei Schritt 414 wird die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, so aktualisiert, dass er ist. Als Nächstes wird bei Schritt 415 die Zeitverzögerung τ verringert um 1. Bei Schrift 416, wenn die Zeitverzögerung τ nicht kleiner ist als ein vorgegebener Wert τmax-, kehrt das Verfahren zurück zu Schritt 411. Die Verfahrensschritte 411 bis 415 werden wiederholt, bis die Zeitverzögerung τ gleich dem vorgegebenen Wert τmax-, wird. Schließlich, bei Schritt 417, wird die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, ausgegeben.
  • Die Fig. 5A bis 5C zeigen schematische Schaubilder zum Beschreiben der Verfahrensschritte 36, 37 und 38 wie in Fig. 3 gezeigt.
  • Fig. 5A zeigt den Fall, bei welchem die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten ist, gleich 0 ist (Tc = 0). Fig. 5B zeigt den Fall, bei welchem die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, größer als 0 ist (Tc > 0). Fig. 5C zeigt den Fall, bei welchem die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, kleiner als 0 ist (Tc < 0). Bei jedem dieser Fälle wird das erste Signal multipliziert mit einer ersten Fensterfunktion, deren Amplitude sich allmählich bzw. graduell mit der Zeit erhöht, das zweite Signal wird multipliziert mit einer zweiten Fensterfunktion, deren Amplitude sich allmählich mit der Zeit verringert und das erste Signal, welches mit der ersten Fensterfunktion multipliziert wurde, und das zweite Signal, welches mit der zweiten Fensterfunktion multipliziert wurde, werden zusammenaddiert, nachdem diese um die Zeitverzögerung Tc verschoben wurden, bei welcher die Korrelationsfunktion am größten wird.
  • Hierin wird die Form der Fensterfunktion verändert in Abhängigkeit von der Zeitverzögerung Tc, bei welcher die Korrelationsfunktion am größten wird. Insbesondere, in dem Fall Tc = 0, erhöht sich die erste Fensterfunktion monoton von 0 bis 1 während der zeitlichen Länge bzw. Zeitdauer T, während sich die weite Fensterfunktion monoton verringert von 1 auf 0 auf eine komplementäre Art zu der ersten Fensterfunktion während der Zeitdauer T. In dem Fall von Tc > 0 hat die erste Fensterfunktion einen Wert von 0 während der Zeitdauer Tc und erhöht sich dann monoton von 0 bis 1 während der Zeitdauer (T - Tc), während sich die zweite Fensterfunktion monoton verringert von 1 auf 0 auf eine Art komplementär zu der ersten Fensterfunktion während der Zeitdauer (T - Tc) und hat dann einen Wert von 0 während der Zeitdauer Tc. In dem Fall von Tc < 0 erhöht sich die erste Fensterfunktion monoton von 0 auf 1 während der Zeitdauer (T - (-Tc)) und hat dann einen Wert von 1 während der Zeitdauer (-Tc), während die zweite Fensterfunktion einen Wert von 1 während der Zeitdauer (-Tc) hat und sich dann monoton verringert von 1 auf 0 auf eine komplementäre Art zu der ersten Fensterfunktion während der Zeitdauer (T - (-Tc)). Die Länge der erhaltenen Summe ist gegeben mit T - Tc.
  • Fig. 6A und 6B zeigen schematisch ein Beispiel eines Eingangssignals und eines Ausgangssignals, welche in Abhängigkeit von dem oben beschriebenen Sprach- Zeitskalen-Modifikationsverfahren verarbeitet werden.
  • Fig. 6A zeigt ein Eingangssignal, und Fig. 6B zeigt ein Ausgangssignal, wenn das Zeitskalenmodifikationsverhältnis 3/2 ist. Es wird angenommen, dass der Wert der Korrelationsfunktion zwischen den Eingangssignalen XA1 und XB1 am größten wird, wenn die Zeitverzögerung Tc1 = 0, der Wert der Korrelationsfunktion zwischen den Eingangssignalen XA2 und XB2 wird am größten, wenn die Zeitverzögerung Tc2 > 0, und der Wert der Korrelationsfunktion zwischen den Eingangssignalen XA3 und XB3 wird am größten, wenn die Zeitverzögerung Tc3 < 0.
  • Die Summe der Zeitdauer eines Signals, welches erhalten wurde durch Addieren des ersten Signals XAn zu dem zweiten Signal XBn und der Zeitdauer eines dritten Signals XCn, welches auf das erste Signal XAn folgt, ist definiert durch &alpha;(T - Tcn)/(&alpha; - 1) für n = 1, 2, 3. Demzufolge wird die Summe der Zeitdauer des addierten Signals und des dritten Signals bestimmt auf der Grundlage des Zeitskalenmodifikationsverhältnis &alpha;, der Zeitverzögerung Tcn, bei welcher der Wert der Korrelationsfunktion am größten wird und der Zeitdauer T.
  • Das Verhältnis der Zeitdauer des Ausgangssignals zu der Zeitdauer des Eingangssignals (XC1 + XC2 + XC3) ist gleich dem vorgegebenen bzw. eingestellten Zeitskalenmodifikationsverhältnis &alpha; (= 3/2). Weil XCn direkt ausgegeben wird, und alle Segmente des Eingangssignals verwendet werden, ist das Ausgangssignal vollständig frei bzw. ohne einen Informationsverlust.
  • Wie oben erwähnt, wird gemäß dem Sprach-Zeitskalen-Modifikationsverfahren der Erfindung das erste Signal XA multipliziert mit der ersten Fensterfunktion mit einer graduell ansteigenden Amplitude und das zweite Signal XB wird multipliziert mit der zweiten Fensterfunktion mit einer sich graduell bzw. allmählich verringernden Amplitude. Dann werden das erste Signal XA, multipliziert mit der ersten Fensterfunktion, und das zweite Signal XB, multipliziert mit der zweiten Fensterfunktion, zusammenaddiert. Dies ermöglicht es, die Unstetigkeit des addierten Signals in der Amplitude zu verringern.
  • Des Weiteren werden das erste Signal XA multipliziert mit der ersten Fensterfunktion und das zweite Signal XB multipliziert mit der zweiten Fensterfunktion zusammenaddiert mit einer relativen Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird. Dies ermöglicht es, die Unstetigkeit der Signalphase zu verringern.
  • Des Weiteren werden ein Signal, welches erhalten wurde durch Addieren des ersten Signals XA multipliziert mit der ersten Fensterfunktion zu dem zweiten Signal XB multipliziert mit der zweiten Fensterfunktion und eines dritten Signals XC, welches auf das erste Signal XA folgt, ausgegeben während einer Zeitdauer, welche bestimmt wurde auf der Grundlage des Zeitskalenmodifikationsverhältnis &alpha;, der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, und der zeitlichen Länge bzw. Zeitdauer T. Dies ermöglicht es ein expandiertes bzw. ausgedehntes Signal in einem Bereich des Zeitskalenmodifikationsverhältnisses &alpha; &ge; 1,0 auszugeben und ohne einen signifikanten Verlust von Daten.
  • Hiernach wird ein Sprach-Zeitskalen-Modifikationsverfahren beschrieben werden in einem Fall, wenn die Bedingung erfüllt ist, dass das Zeitskalenmodifikationsverhältnis &alpha; kleiner ist als oder gleich zu 1,0 (&alpha; &le; 1,0).
  • Dieses Verfahren ist vorgesehen zur Erzeugung eines natürlich klingenden Sprachsignals bei verringertem Auftreten von Unstetigkeit der Signalamplitude und Phase ohne einen Datenverlust, innerhalb des Bereiches des Zeitskalenmodifikationsverhältnisses &alpha; &le; 1,0.
  • Fig. 7 zeigt das Ablaufdiagramm, welches das Sprach-Zeitskalen- Modifikationsverfahren gemäß der zweiten Ausführungsform der Erfindung veranschaulicht.
  • Die Arbeitsweise dieses Sprach-Zeitskalen-Modifikationsverfahrens wird nachfolgend beschrieben werden.
  • Zuerst wird bei Schritt 71 ein Eingangs- bzw. Eingabezeiger bzw. -pointer (input pointer) auf 0 rückgesetzt. Als Nächstes wird bei Schritt 72 ein erstes Signal (XA) mit einer Zeitdauer T aus einer Position gelesen, welche von dem Eingabe-Pointer angezeigt wird. Bei Schritt 73 wird der Eingabe-Pointer um T erhöht. Dann wird bei Schritt 74 ein zweites Signal (XB) mit der Zeitdauer T gelesen aus einer Position, welche von dem Eingabe-Zeiger angezeigt wird.
  • Bei Schritt 75 wird ein Wert der Korrelationsfunktion zwischen dem ersten Signal XA und dem zweiten Signal XB berechnet, und eine Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, wird bestimmt. Als Nächstes wird bei Schritt 76, basierend auf der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, das erste Signal XA multipliziert mit einer ersten Fensterfunktion mit einer sich graduell verringernden Amplitude. Bei Schritt 77 wird, basierend auf der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, das zweite Signal XB multipliziert mit einer zweiten Fensterfunktion mit einer sich graduell erhöhenden Amplitude.
  • Dann werden bei Schritt 78 das erste Signal, multipliziert mit der ersten Fensterfunktion, und das zweite Signal, multipliziert mit der zweiten Fensterfunktion, zusammenaddiert, nachdem diese verschoben wurden zu der Position der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird. Bei Schritt 79 wird der Eingabe-Pointer um T erhöht. Als Nächstes werden bei Schritt 80 das Ergebnis der Addition bei Schritt 78 und ein Signal, welches auf das zweite Signal XB folgt, d. h. ein drittes Signal (XC) beginnend bei einer Position, welche momentan angezeigt wird durch den Eingangs-Pointer, ausgegeben während einer Zeitdauer, welche definiert ist durch &alpha;(T - Tc)/(1 - &alpha;). Dann wird bei Schritt 81 der Eingabe-Pointer erhöht um (2&alpha; T - T - Tc)/(1 - &alpha;). Schließlich kehrt das Verfahren zum Schritt 72 zurück.
  • Die Verarbeitung bei Schritt 75 in Fig. 7, bei welcher der Wert der Korrelationsfunktion zwischen dem ersten Signal XA und dem zweiten Signal XB berechnet wird und eine Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, bestimmt wird, ist die gleiche wie in Fig. 4 veranschaulicht.
  • Fig. 8A bis 8C zeigen schematisch Schaubilder zum Beschreiben der Verarbeitungsschritte 76, 77 und 78 wie in Fig. 7 gezeigt.
  • Fig. 8A zeigt den Fall, bei welchem die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, gleich 0 ist (Tc = 0). Fig. 8B zeigt den Fall, bei welchem die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, größer ist als 0 (Tc > 0). Fig. 8C zeigt den Fall, bei welcher die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, kleiner ist als 0 (Tc < 0). In jedem dieser Fälle wird das erste Signal multipliziert mit der ersten Fensterfunktion, deren Amplitude sich graduell mit der Zeit verringert, das zweite Signal wird multipliziert mit der zweiten Fensterfunktion, deren Amplitude sich graduell mit der Zeit erhöht, und die Ergebnisse werden zusammenaddiert, nachdem diese verschoben wurden um die Zeitverzögerung Tc, bei welcher die Korrelationsfunktion am größten wird. Hierin wird die Form der Fensterfunktion verändert in Abhängigkeit von der Zeitverzögerung Tc, bei welcher die Korrelationsfunktion am größten wird. Die Zeitdauer der erhaltenen Summe wird gegeben mit T + Tc.
  • Fig. 9A und 9B zeigen schematisch ein Beispiel eines Eingangssignal und eines Ausgangssignals, welche verarbeitet wurden durch das oben beschriebene Sprach- Zeitskalen-Modifikationsverfahren.
  • Fig. 9A zeigt ein Eingangssignal, und Fig. 9B zeigt ein Ausgangssignal, wenn das Zeitskalenmodifikationsverhältnis &alpha; 2/3 beträgt. Es wird angenommen, dass der Wert der Korrelationsfunktion zwischen den Eingangssignalen XA1 und XB1 am größten wird, wenn die Zeitverzögerung Tc1 = 0, der Wert der Korrelationsfunktion zwischen den Eingangssignalen XA2 und XB2 wird am größten, wenn die Zeitverzögerung Tc2 > 0, und der Wert der Korrelationsfunktion zwischen den Eingangssignalen XA3 und XB3 wird am größten, wenn die Zeitverzögerung Tc3 < 0.
  • Die Summe der Zeitdauer eines Signals, welches erhalten wurde durch Addieren des ersten Signals XAn zu dem zweiten Signal XBn und die Zeitdauer eines dritten Signals XCn, welches auf das zweite Signal XBn folgt, ist gleich einer Zeitdauer, welche definiert ist durch &alpha;(T - Tcn)/(1 - &alpha;). Demzufolge wird die Summe der Zeitdauer des addierten Signals und des dritten Signals bestimmt auf der Grundlage des Zeitskalenmodifikationsverhältnis &alpha;, der Zeitverzögerung Tcn, bei welcher der Wert der Korrelationsfunktion am größten wird, und der Zeitdauer T. Das Verhältnis der Zeitdauer des Ausgangssignals zu der Zeitdauer des Eingangssignals ist gleich dem vorgegebenen Zeitskalenmodifikationsverhältnis &alpha; (= 2/3). Weil das Eingangssignal bei allen Segmenten bzw. Abschnitten verwendet wird, dem ersten Signal XAn, dem zweiten Signal XBn, und dem dritten Signal XCn, gibt es keinen signifikanten Verlust an Information in dem Ausgangssignal.
  • Wie oben erwähnt, wird gemäß dem Sprach-Zeitskalen-Modifikationsverfahren der Erfindung das erste Signal XA multipliziert mit der ersten Fensterfunktion einer sich graduell bzw. allmählich verringernden Amplitude und das zweite Signal XB wird multipliziert mit der zweiten Fensterfunktion mit einer sich graduell erhöhenden Amplitude. Dann werden das erste Signal XA, multipliziert mit der ersten Fensterfunktion, und das zweite Signal XB, multipliziert mit der zweiten Fensterfunktion, zusammenaddiert. Dies ermöglicht es, die Unstetigkeit des addierten Signals in der Amplitude zu verringern.
  • Des Weiteren werden das erste Signal XA, multipliziert mit der ersten Fensterfunktion, und das zweite Signal XB, multipliziert mit der zweiten Fensterfunktion, zusammenaddiert mit einer relativen Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird. Dies ermöglicht es, die Unstetigkeit der Signalphase zu verringern.
  • Des Weiteren werden ein Signal, welches erhalten wurde durch Addieren des ersten Signals XA, multipliziert mit der ersten Fensterfunktion zu dem zweiten Signal XB, multipliziert mit der zweiten Fensterfunktion und ein drittes Signal XC, welches auf das zweite Signal XB nachfolgt, ausgegeben während einer Zeitdauer, welche bestimmt wurde auf der Grundlage des Zeitskalenmodifikationsverhältnis &alpha;, der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, und der Zeitdauer T. Dies ermöglicht es, ein komprimiertes Signal auszugeben in einem Bereich des Zeitskalenmodifikationsverhältnis &alpha; &le; 1,0 und ohne einen signifikanten Verlust von Daten.
  • Eine zweite Ausführungsform der Sprach-Zeitskalen-Modifikationsvorrichtung und -Verfahren der Erfindung wird nachfolgend unter Bezugnahme auf die Zeichnungen beschrieben werden.
  • Die vorliegende Erfindung ist vorgesehen, um eine Sprach-Zeitskalen- Modifikationsvorrichtung und ein Verfahren zur Verfügung zu stellen, welches bzw. welche realisiert werden können mit einer einfachen Hardware und welche eine natürlich klingende Sprache erzeugen können bei verringertem Auftreten einer Unstetigkeit der Signalamplitude und Phase und ohne einen signifikanten Verlust von Daten.
  • Fig. 10 zeigt eine Anordnung einer Sprach-Zeitskalen-Modifikationsvorrichtung gemäß der zweiten Ausführungsform der Erfindung. Wie in Fig. 10 gezeigt, umfasst die Sprach-Zeitskalen-Modifikationsvorrichtung einen A/D Wandler 11, einen Puffer 12, eine Ratensteuerschaltung 13, einen Demultiplexer 14, einen ersten Speicher 15 zum Speichern eines Eingangssignals mit einer Zeitdauer (2T -1), einen zweiten Speicher 16 zum Speichern eines Eingangssignals mit der Zeitdauer (2T - 1) und verzögert um die Zeit T von dem Eingangssignal, welches in dem ersten Speicher 15 gespeichert ist, einen Korrelator bzw. Korrelationsanalysator 17 zum Berechnen eines Werts der Korrelationsfunktion zwischen den Inhalten des ersten Speichers 15 und den Inhalten des zweiten Speichers 16 und zum Bestimmen einer Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, einen Fensterfunktionsgenerator 18, einen ersten Multiplizierer 19, einen zweiten Multiplizierer 20, einen Addierer 21, einen Multiplexer 22, einen D/A Wandler 23 und eine Speicherlesesteuerschaltung 24 zum Lesen eines Signals aus den Inhalten des ersten Speichers 15 in Abhängigkeit von der Ausgabe des Korrelators 17 und zum Lesen eines Signals von den Inhalten des zweiten Speichers 16 in Abhängigkeit von der Ausgabe des Korrelators 17.
  • Die Arbeitsweise der Sprach-Zeitskalen-Modifikationsvorrichtung mit der obigen Anordnung wird nachfolgend beschrieben werden.
  • Als erstes wird ein analoges Eingangssignal umgewandelt durch den A/D Wandler 11 in ein digitales Signal, und dann in den Puffer 12 geschrieben. Der Demultiplexer 14 leitet das Eingangssignal, welches in dem Puffer 12 gespeichert ist, zu dem ersten Speicher 15 während der Dauer der zeitlichen Länge bzw. Zeitdauer (2T - 1), und gibt dann das Eingangssignal verzögert um die Zeit T von dem Eingangssignal, welches in dem ersten Speicher 15 gespeichert ist, zu dem zweiten Speicher 16 während der Dauer der Zeitlänge bzw. Zeitdauer (2T - 1).
  • Der Korrelator 17 berechnet einen Wert der Korrelationsfunktion durch zeitliches Versetzen bzw. Verschieben der Inhalte des ersten Speichers 15 von den Inhalten des zweiten Speichers 16, und bestimmt eine Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird. Die bestimmte Zeitverzögerung Tc wird der Ratensteuerschaltung 13, dem Fensterfunktionsgenerator 18, der Speicherlesesteuerschaltung 24, und dem Addierer 21 zugeführt.
  • Die Speicherlesesteuerschaltung 24 liest ein Signal mit einer zeitlichen Länge bzw. Zeitdauer T oder einer Zeitdauer (T + Tc ) von dem ersten Speicher 15 und dem zweiten Speicher 16. Hierin zeigt die Schreibweise. · die Bildung eines Absolutwertes an.
  • Basierend auf der Zeitverzögerung Tc von dem Korrelator 17 und dem Zeitskalenmodifikationsverhältnis &alpha; erzeugt der Fensterfunktionsgenerator 18 eine erste Fensterfunktion, deren Amplitude sich graduell erhöht oder verringert mit der Zeit und deren Zeitdauer T + Tc oder T ist, und liefert die erste Fensterfunktion an den ersten Multiplizierer 19. Der Fensterfunktionsgenerator 18 liefert auch eine zweite Fensterfunktion, deren Amplitude komplementär zu der ersten Fensterfunktion ist und deren Zeitdauer T oder (T + Tc ) ist, an den zweiten Multiplizierer 20. Der erste Multiplizierer 19 multipliziert die Ausgabe des ersten Speichers 15 mit der ersten Fensterfunktion von dem Fensterfunktionsgenerator 18, während der zweite Multiplizierer 20 die Ausgabe des zweiten Speichers 16 mit der zweiten Fensterfunktion von dem Fensterfunktionsgenerator 18 multipliziert.
  • Basierend auf der Zeitverzögerung Tc von dem Korrelator 17, addiert der Addierer 21 die Ausgabe des ersten Multiplizierers 19 und die Ausgabe des zweiten Multiplizierers 20 zusammen, wobei die letztere von der ersteren um die Zeitverzögerung Tc verschoben wird, bei welcher der Wert der Korrelationsfunktion am größten wird und mit dem Überlappen von einer mit der anderen während der zeitlichen Länge T, und liefert die erhaltene Summe an den Multiplexer 22.
  • Die Ratensteuerschaltung 13 steuert den Demultiplexer 14, um das Eingangssignal, welches in dem Puffer 12 gespeichert ist, zu dem Multiplexer 22 zu übertragen, so dass die Summe der Zeitdauer der Ausgabe des Addierers 21 und der Zeitdauer des Eingangssignals, folgend auf die Inhalte des ersten oder zweiten Speichers 15 oder 16, gleich der zeitlichen Länge bzw. Zeitdauer wird, welche bestimmt wurde auf der Grundlage des Zeitskalenmodifikationsverhältnis &alpha; (= Ausgabezeitdauer/Eingabezeitdauer), der zeitlichen Verzögerung Tc von dem Korrelator 17, und der Zeitdauer T. Dann schaltet, basierend auf einem Steuersignal, welches von der Ratensteuerschaltung 13 zugeführt wird, der Multiplexer 22 zwischen der Ausgabe des Addierers 21 und der Ausgabe des Demultiplexers 14, und liefert die Ausgabe an den DIA Wandler 23. Der DIA Wandler 23 wandelt das digitale Signal, zugeführt von dem Multiplexer 22, in ein analoges Signal um Schließlich bestimmt, basierend auf dem Zeitskalenmodifikationsverhältnis &alpha;, der Zeitverzögerung Tc von dem Korrelator 17, und der Zeitdauer T, die Ratensteuerschaltung 13 die Startposition des Eingangssignals, welche von dem Puffer 12 zu dem ersten Speicher 15 in dem nächsten Verarbeitungsschritt übertragen werden soll.
  • Bei dieser Ausführungsform können die Inhalte des Puffers 12 von dem Demultiplexer 14 direkt zu dem Korrelator 17, dem ersten Multiplizierer 19, dem zweiten Multiplizierer 20 bzw. dem Multiplexer 22 übertragen werden, weil die Inhalte des Puffers 12 wiederholt werden als bzw. wie die Inhalte des ersten Speichers 15 und die Inhalte des zweiten Speichers 16. Der erste Speicher 15 und der zweite Speicher 16 können dann weggelassen werden.
  • Fig. 11 zeigt die Anordnung des Korrelators 17 bei der Sprachzeitskalenmodifikationsvorrichtung gemäß der zweiten Ausführungsform der Erfindung. Wie in Fig. 11 gezeigt, umfasst der Korrelator 17 einen Eingabeanschluss 201 zum Eingeben der Inhalte des ersten Speichers 15, einen Eingabeanschluss 202 zum Eingeben der Inhalte des zweiten Speichers 16 und einen Ausgabeanschluss 211. Der Korrelator umfasst weiter ein erstes Schieberegister 212 mit einer zeitlichen Länge bzw. Zeitdauer (3T - 2) zum Speichern der Inhalte des ersten Speichers 15 während der Zeitdauer (2T - 1) und zum Einfügen einer Verzögerung um einen Abtastwert (sample), ein zweites Schieberegister 213 mit der zeitlichen Länge (3T - 2) zum Speichern der Inhalte des zweiten Speichers 16 während der Zeitdauer (2T - 1) und zum Einfügen einer Verzögerung um einen Abtastwert, Multiplizierer 2051-205T, angeordnet in einem Feld (array) zum Multiplizieren der Inhalte des ersten Schieberegisters 212 mit den Inhalten des zweiten Schieberegisters 213, einen Addierer 206 zum Erhalten der Gesamtsumme der Ausgaben der Multiplizierer 2051-205T, einen Komparator 207, einen Speicher 208 für den maximalen Wert einer Korrelationsfunktion zum Speichern des maximalen Werts der Ausgabe des Addierers 206, zugeführt über den Komparator 207, eine Verzögerungssteuerung 209 zum Steuern der Zeitverzögerung des ersten Schieberegisters 212 und des zweiten Schieberegisters 213, einen Zeitverzögerungsspeicher 210 zum Speichern der Zeitverzögerung des ersten Schieberegisters 212 oder des zweiten Schieberegisters 213, bei welcher die Korrelationsfunktion am größten wird.
  • Die Arbeitsweise des so konfigurierten Korrelators 17 der Sprachzeitskalenmodifikationsvorrichtung wird nachfolgend beschrieben werden.
  • Bei den anfänglichen Bedingungen bzw. Zuständen werden die Inhalte des ersten Schieberegisters 212, die Inhalte des zweiten Schieberegisters 213, der Inhalt des Speichers 208 für den maximalen Wert der Korrelationsfunktion, der Inhalt der Verzögerungssteuerung 209 und der Inhalt des Zeitverzögerungsspeichers 210 auf Null gelöscht.
  • Dann werden die Inhalte des ersten Speichers 15 an den Eingangsanschluss 201 angelegt und übertragen auf die äußerst linke Position des ersten Schieberegisters 212 während der Dauer der zeitlichen Länge (2T - 1), während die Inhalte des zweiten Speichers 202 angelegt werden an den Eingabeanschluss 202 und übertragen werden zu der äußerst linken Position des zweiten Schieberegisters 213 während der Dauer der zeitlichen Länge (2T - 1). Als Nächstes multiplizieren die Multiplizierer 2051-205T die Inhalte des ersten Schieberegisters 212 mit den Inhalten des zweiten Schieberegisters 213. Der Addierer 206 erhält die Gesamtsumme der Ausgaben der Multiplizierer 2051-205T, und gibt die Summe als einen Wert der Korrelationsfunktion aus, wenn die zeitliche Verzögerung &tau; ist.
  • Der Komparator 207 vergleicht dann die Ausgabe des Addierers 206 mit dem Inhalt des Speichers 208 für den maximalen Wert der Korrelationsfunktion. Wenn der Komparator 207 beurteilt, dass die Ausgabe des Addierers 206 größer ist als der Wert, welcher in dem Speicher 208 für den maximalen Wert der Korrelationsfunktion gespeichert ist, liefert der Komparator 207 die Ausgabe des Addierers 206 an den Speicher 208 für den maximalen Wert der Korrelationsfunktion, und steuert zur gleichen Zeit den Zeitverzögerungsspeicher 210, um so die Ausgabe &tau; der Verzögerungssteuerung 209 zu speichern als eine Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird.
  • Wenn die Zeitverzögerung &tau; positiv ist, steuert die Verzögerungssteuerung 209 das erste und zweite Schieberegister 212 und 213 so, dass die Inhalte des zweiten Speichers 16 fest sind bei der äußerst linken Position des zweiten Schieberegisters 213, so dass die Inhalte des ersten Schieberegisters 212 verzögert werden in die rechte Richtung um einen Abtastwert zu einem Zeitpunkt, so dass die Zeitverzögerung &tau;, initialisiert auf 0, um 1 bei einem Zeitpunkt erhöht wird.
  • Wenn die Zeitverzögerung &tau; negativ ist, steuert die Verzögerungssteuerung 209 die ersten und zweiten Schieberegister 212 und 213 so, dass die Inhalte des ersten Speichers 15 festgelegt sind bei der äußerst linken Position des ersten Schieberegisters 212, so dass die Inhalte des zweiten Schieberegisters 213 verzögert werden in die rechte Richtung um einen Abtastwert zu einem Zeitpunkt, und so dass die Zeitverzögerung &tau; initialisiert auf 0, um 1 zu einem Zeitpunkt verringert wird. Dann kehrt das Verfahren zurück zu dem Schritt, wo die Multiplizierer 2051-205T die Inhalte des ersten Schieberegisters 212 mit den Inhalten des zweiten Schieberegisters 213 multiplizieren. Dieses Verfahren wird wiederholt, solange die Zeitverzögerung t innerhalb des Bereiches von -T + 1 &le; &tau; &le; + T - 1 bleibt. Wenn diese Wiederholungen abgeschlossen sind, werden die Inhalte, welche in dem Zeitverzögerungsspeicher 210 gespeichert sind, ausgegeben von dem Ausgabeanschluss 211 als eine Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion zwischen den Inhalten des ersten Speichers 15 und den Inhalten des zweiten Speichers 16 am größten wird.
  • Bei der obigen Ausführungsform wird der Suchbereich der Korrelationsfunktion festgelegt auf -T + 1 &le; &tau; &le; + T - 1, jedoch kann dieser festgelegt werden auf -T + k &le; &tau; &le; + T - j (wobei T > k > 1, T > j > 1). In dem letzteren Fall können nicht nur die zeitlichen Längen bzw. Zeitdauern des ersten Schieberegisters 212 und des zweiten Schieberegisters 213 verkürzt werden, sondern die Anzahl der Korrelationsfunktionsberechnungen kann auch verringert werden, weil die Anzahl der Wiederholungen der Multiplikations- und Additions-Vorgänge verringert wird.
  • Des Weiteren kann die obige Ausführungsform so konfiguriert werden, dass die Inhalte des ersten Speichers 15 und des zweiten Speichers 16 sequentiell den Multiplizierern 2051-205T eingegeben werden, jedes Mal wenn die Verzögerungszeit &tau; verändert wird, weil die Inhalte, welche gespeichert werden sollen, in dem ersten Schieberegister 212 die gleichen sind, wie die Inhalte, welche in dem ersten Speicher 15 gespeichert sind, und die Inhalte, welche in dem zweiten Schieberegister 213 gespeichert werden sollen die gleichen sind, wie die Inhalte, welche in dem zweiten Speicher 16 gespeichert sind. In diesem Fall können das erste Schieberegister 212 und das zweite Schieberegister 213 ausgelassen werden.
  • Wie oben erwähnt, multiplizieren gemäß der Sprachzeit skalenmodifikationsvorrichtung der zweiten Ausführungsform der Erfindung der erste Multiplizierer 19 und der zweite Multiplizierer 20 die Inhalte des ersten Speichers 15 und die Inhalte des zweiten Speichers 16 mit Fensterfunktion, deren Amplituden sich graduell erhöhen oder verringern, ausgegeben von dem Fensterfunktionsgenerator 18. Der Addierer 21 addiert die Ausgaben des ersten Multiplizierers 19 und des zweiten Multiplizierers 20 miteinander. Dies ermöglicht es, ein natürlich klingendes Sprachsignal auszugeben bei verringertem Auftreten einer Unstetigkeit der Signalamplitude und ohne einen signifikanten Verlust von Daten.
  • Des Weiteren berechnet der Korrelator 17 die Korrelationsfunktion zwischen den Inhalten des ersten Speichers 15 und den Inhalten des zweiten Speichers 16. Der Addierer 21 addiert die Ausgaben des ersten Multiplizierers 19 und des zweiten Multiplizierers 20 zusammen mit einer relativen Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird. Dies ermöglicht es, ein Sprachsignal mit einer hohen Qualität und verringertem Auftreten einer Unstetigkeit in der Signalphase auszugeben.
  • Des Weiteren steuert die Ratensteuerschaltung 13 den Demultiplexer 14 und den Multiplexer 22 so, dass die Summe der zeitlichen Länge der Ausgabe des Addierers 21, der zeitlichen Länge des Eingangssignals, welches auf die Inhalte des ersten Speichers oder die Inhalte des zweiten Speichers 16 von dem Puffer 12 folgt gleich einer zeitlichen Länge ist, welche bestimmt wurde auf der Grundlage des Zeitskalenmodifikationsverhältnis &alpha;, der Zeitverzögerung Tc von dem Korrelator 17 und der zeitlichen Länge bzw. Zeitdauer T. Dies ermöglicht es leicht das Zeitskalenmodifikationsverhältnis zu verändern, um die Verschiebung bzw. Versetzung des Zeitskalenmodifikationsverhältnisses aufzunehmen bzw. zu absorbieren, welche verursacht wird durch Addieren der Ausgaben des ersten Multipliziers 19 und des zweiten Multiplizierers 20 zusammen mit einer relativen Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, und ein Sprachsignal ohne einen signifikanten Verlust von Daten auszugeben.
  • Des Weiteren addiert der Addierer 21 die Inhalte des ersten Speichers 15, welche eine zeitliche Länge T oder T + Tc haben und multipliziert sind mit der Fensterfunktion von dem ersten Multiplizierer 19 zu den Inhalten des zweiten Speichers 16, welcher eine zeitliche Länge T + Tc oder T haben und multipliziert sind mit der Fensterfunktion von dem zweiten Multiplizierer 20, mit einem Zustand des Überlappens von diesen für die zeitliche Länge T. Deshalb wird die Überlappungszeitlänge konstant gehalten, was zur Verringerung der Wahrscheinlichkeit der Amplitudenunstetigkeit beiträgt, was dazu neigt aufzutreten, wenn die Überlappungszeitlänge kurz wird.
  • Des Weiteren berechnet der Korrelator 17 den Wert der Korrelationsfunktion durch Überlappen der Inhalte des ersten Speichers 15 mit den Inhalten des zweiten Speichers 16 während der zeitlichen Länge T, unabhängig von der Zeitverzögerung &tau;. Deshalb wird die Zeitlänge, während welcher die Korrelationsfunktion berechnet wird, nicht kürzer mit dem ansteigenden Abweichen der Zeitverzögerung &tau; von 0, so dass die Korrelationsfunktion mit einer guten Genauigkeit berechnet werden kann.
  • Hiernach wird das Sprachzeitskalenmodifikationsverfahren der zweiten Ausführungsform der vorliegenden Erfindung nachfolgend beschrieben werden unter Bezugnahme auf die Zeichnungen. Es wird verstanden werden, dass das Verfahren durchgeführt werden kann durch die oben beschriebene Sprachzeitskalenmodifikationsvorrichtung.
  • Das Sprachzeitskalenmodifikationsverfahren kann angewendet werden, wenn das Zeitskalenmodifikationsverhältnis &alpha; innerhalb des Bereiches liegt, welcher definiert ist durch den folgenden Ausdruck.
  • (T + &tau;max+)/(2T) &le; &alpha; &le; 1,0
  • Fig. 12 zeigt das Ablaufdiagramm, welches das Sprachzeitskalenmodifikationsverfahren veranschaulicht. Die Arbeitsweise wird nachfolgend beschrieben werden.
  • Bei der folgenden Beschreibung wird angenommen, dass das Eingangssignal abgetastet wird in der Form von diskreten Zeitdaten x(n) und dass die Zeit in Ausdrücken der Abtastzeit ausgedrückt wird. Bei der hiernach beschriebenen Verarbeitung werden Daten bezeichnet durch die Eingangsdaten-Pointer P1, P2 und einen Ausgangsdaten-Pointer P3.
  • Als erstes wird bei Schritt 1201 eine Adresse ip1, angezeigt durch den Eingangsdaten-Pointer P1, auf eine Startadresse eines wiederzugebenden Eingangssignals festgelegt. Zur gleichen Zeit wird eine Adresse ip2, angezeigt durch den Pointer P2, festgelegt auf eine Adresse, welche von der Adresse entfernt ist, welche angezeigt wird durch den Eingangsdaten-Pointer P1 um T. Weiterhin wird eine Adresse op, angezeigt durch den Ausgangsdaten-Pointer, auf einen Anfangswert festgelegt. Bei Schritt 1202 wird das Zeitskalenmodifikationsverhältnis &alpha; festgelegt. Das Verhältnis &alpha; sollte die Bedingung festgelegt durch den obigen Ausdruck erfüllen.
  • Es wird angenommen, dass ein Signal A eine Zeitdauer T von dem Pointer P1 und ein Signal B die Zeitdauer T von dem Pointer P2 hat.
  • Bei Schritt 1203 wird ein Wert der Korrelationsfunktion zwischen dem Signal A und einem Signal, welches die Zeitdauer T hat und Verzögert ist von dem Signal B um eine Zeitverzögerung (-&tau;) für -T < &tau; < 0 berechnet, und ein Wert der Korrelationsfunktion zwischen dem Signal B und einem Signal, welches die Zeitdauer T hat und verzögert ist von dem Signal A um die Zeitverzögerung &tau; für 0 &le; &tau; < T wird berechnet.
  • Bei Schritt 1204 wird eine Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, bestimmt. Für die Berechnung der Korrelationsfunktion COR verändert sich der Bereich des verwendeten Eingangssignals in Abhängigkeit davon, ob das Vorzeichen des Wertes von &tau; positiv oder negativ ist, wie in Fig. 13 gezeigt. Insbesondere, wenn die Zeitverzögerung &tau; positiv ist, wird das Signal B als die Referenz festgelegt, und ein Signal A' = x(ip1 + &tau; + m) (wobei 0 &le; m &le; T - 1) verzögert um die Zeit &tau; von dem Signal A wird verwendet, wie in Schritt 1304 von Fig. 13 gezeigt. Andererseits, wenn die Zeitverzögerung &tau; negativ ist, wird das Signal A als die Referenz festgelegt, und ein Signal B' = x(ip2 - &tau; + m) (wobei 0 &le; m &le; T - 1) verzögert um die Zeit -&tau; von dem Signal B wird verwendet, wie in Schritt 1303 von Fig. 13 gezeigt. Weiterhin werden ein positiver maximaler Wert &tau;max+ der Zeitverzögerung &tau; und ein negativer maximaler Wert &tau;max- der Zeitverzögerung &tau; vorgegeben, um den Bereich der Zeitverzögerung &tau; zu begrenzen, basierend darauf, welche Korrelationsfunktion berechnet werden soll. Die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, kann so erhalten werden.
  • Bei Schritt 1205 wird eine zeitliche Länge Tt, während welcher das Eingangssignal direkt ausgegeben wird, wie in Fig. 14 gezeigt, berechnet. Für die Berechnung der zeitlichen Länge Tt, welche das Segment des Eingangssignals, welches direkt ausgegeben werden soll, definiert, ist die Berechnungsformel unterschiedlich in Abhängigkeit von dem Vorzeichen der Zeitverzögerung Tc. Insbesondere, wenn die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, positiv ist, dann wird die zeitliche Länge Tt während welcher das Eingangssignal direkt ausgegeben werden soll, erhalten, wie in Schritt 1403 von Fig. 14 gezeigt. Andererseits, wenn die zeitliche Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, negativ ist, wird die zeitliche Länge Tt während welcher das Eingangssignal ausgegeben werden soll, direkt erhalten, wie in Schritt 1402 von Fig. 14 gezeigt. Des Weiteren, wenn der Wert der Zeitverzögerung Tc positiv ist, wird ein Ausgangssignal erhalten durch das Durchlaufen der Schritte 1207, 1208 und 1209. Wenn nicht, wird ein Ausgangssignal erhalten durch das Durchlaufen der Schritte 1210 und 1211. Hierin ist Wdec(i), wie in den Schritten 1208 und 1210 gezeigt, eine Fensterfunktion, wobei die Größe des Fensters 1 ist, wenn i 0 ist, die Größe verringert sich monoton auf eine lineare Art, wenn sich i erhöht und erreicht 0, wenn i gleich T - 1 ist. Andererseits ist Winc(i), wie in den Schritten 1208 und 1210 gezeigt, eine Fensterfunktion, wobei die Größe des Fensters 0 ist, wenn i 0 ist, die Größe erhöht sich monoton auf eine lineare Art, wenn sich i erhöht und erreicht 1, wenn i gleich T - 1 ist.
  • Fig. 15 zeigt, wie das Ausgangssignal erhalten wird in den Fällen, wenn der Wert der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird 0 ist, wobei Tc positiv ist, und wobei Tc negativ ist. Es kann gesehen werden, dass wenn die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, positiv ist, Tt kürzer ist als wenn Tc 0 ist. Andererseits, wenn Tc negativ ist, ist Tt länger. Dies kommt daher, weil die Länge von Tt eingestellt bzw. angepasst wird in Abhängigkeit von der Versetzung bzw. Verschiebung von Tc, um das Auftreten eines Abweichens von dem vorgegebenen
  • Zeitskalenmodifikationsverhältnis zu verhindern. Wenn die Verarbeitung fortgesetzt werden soll, werden die Adressen, angezeigt durch die Eingabedaten-Pointer und Ausgabe-Pointer aktualisiert, wie in Schritt 1213 gezeigt, und dann wird das Verfahren, beginnend mit Schritt 1202 wiederholt.
  • Gemäß dem oben beschriebenen Sprachzeitskalenmodifikationsverfahren kann ein Verfahren zum Komprimieren der Wiedergabezeit für die Ausgabe (ein Verfahren zum Erhöhen der Wiedergabegeschwindigkeit ohne Veränderung der Tonhöhe der Sprache) realisiert werden, welches die hiernach beschriebenen Merkmale aufweist. Bei Schritt 1203 wird ein Wert der Korrelationsfunktion berechnet unter Verwendung des Zeigers P1 oder P2 als Referenz, und bei Schritt 1208 oder 1210 werden das Signal A oder das Signal A' und das Signal B' oder das Signal B gewichtet mit der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, und dann zusammenaddiert. Dies verhindert, dass eine signifikante Phasen- Fehlanpassung auftritt zwischen den Segmenten bzw. Abschnitten, wo die Signale miteinander verbunden werden.
  • Bei Schritt 1208 oder 1210, vor dem Addieren, wird das Signal A oder A' multipliziert mit der Fensterfunktion Wdec(i), deren Amplitude sich monoton verringert mit der Zeit, und das Signal B' oder das Signal B wird multipliziert mit der Fensterfunktion Winc(i), deren Amplitude sich monoton mit der Zeit erhöht. Dies sichert eine gute Amplitudenstetigkeit zwischen den Segmenten bzw. Abschnitten, wo die Signale miteinander verbunden werden. Mit den obigen Arbeitsweisen kann die Wiedergabe eines gleichmäßigen, natürlichen und klaren Klanges ohne einen signifikanten Verlust einer Information und mit verringerten Echo-Effekten erhalten werden, was mit dem Stand der Technik nicht möglich war.
  • Es sollte auch angemerkt werden, dass bei Schritt 1205 die zeitliche Länge Tt, während welcher das Eingangssignal, welches auf das Signal B' oder das Signal B folgt, direkt ausgegeben wird, nachdem die Gewichtungs-Addition berechnet wurde auf der Grundlage der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, so dass eine Veränderung von Tc keine Verschiebung bzw. Versetzung des Zeitskalenmodifikationsverhältnis &alpha; des tatsächlichen Ausgangssignals verursacht.
  • Weiterhin wird die Länge des Segments bzw. Abschnitts entlang dessen die Addition mit Gewichten durchgeführt wird, bei Schritt 1208 oder 1210 festgelegt auf eine konstante Zeitlänge T, welche unabhängig von dem Eingangssignal oder der Zeitverzögerung Tc ist, bei welcher der Wert der Korrektur bzw. Korrelationsfunktion am größten wird, so dass keine Wahrscheinlichkeit besteht, dass die Überblendungs(cross-fade)länge verringert wird aufgrund des Werts von Tc. Der erhaltene Wiedergabeklang ist demzufolge gekennzeichnet durch gleichmäßige niederfrequente Komponenten bzw. Bestandteile, welche in den miteinander verbundenen Signalen enthalten sind.
  • Ein anderes Sprachzeitskalenmodifikationsverfahren der zweiten Ausführungsform der vorliegenden Erfindung wird nachfolgend unter Bezugnahme auf die Zeichnungen beschrieben werden. Es wird verstanden werden, dass das Verfahren durchgeführt werden kann von der oben beschriebenen Sprachzeitskalenmodifikationsvorrichtung.
  • Das Sprachzeitskalenmodifikationsverfahren kann angewendet werden, wenn das Zeitskalenmodifikationsverhältnis &alpha; innerhalb des Bereiches liegt, welcher durch den folgenden Ausdruck definiert ist.
  • 1,0 &le; &alpha; &le; T/&tau;max+
  • Fig. 16 zeigt das Ablaufdiagramm, welches das Sprachzeitskalenmodifikationsverfahren veranschaulicht. Die Arbeitsweise wird nachfolgend beschrieben werden. Bei der nachfolgenden Beschreibung wird angenommen, dass das Eingangssignal abgetastet wird in der Form von diskreten Zeitdaten x(n) und dass die Zeit in Ausdrücken der Abtastzeit ausgedrückt wird. Des Weiteren werden die Daten bezeichnet unter Verwendung von Eingangsdaten-Pointern P1, P2 und einem Ausgangsdaten-Pointer P1
  • Zuerst wird bei Schrit 1601 eine Adresse ip1, angegeben durch den Eingangsdaten- Pointer P1, festgelegt auf eine Startadresse eines Eingangssignals, welches wiedergegeben werden soll. Zur gleichen Zeit wird eine Adresse ip2, angezeigt durch den Pointer P2, festgelegt auf eine Adresse, entfernt von der Adresse, welche angezeigt wird durch den Eingangsdaten-Pointer P1, um T. Weiterhin wird eine Adresse op, angezeigt durch den Ausgangsdaten-Pointer, auf einen Anfangswert festgelegt. Bei Schritt 1602 wird das Zeitskalenmodifikationsverhältnis &alpha; festgelegt. Das Verhältnis &alpha; sollte die Bedingung, festgelegt durch den obigen Ausdruck, erfüllen.
  • Es wird angenommen, dass ein Signal A eine Zeitlänge T von dem Pointer P1 und ein Signal B eine zeitliche Länge T von dem Pointer P2 hat.
  • Bei Schritt 1603 wird ein Wert der Korrelationsfunktion zwischen dem Signal A und einem Signal, welches die zeitliche Länge T hat und verzögert ist von dem Signal B um eine Zeitverzögerung (-&tau;) für -T < &tau; < 0 berechnet, und ein Wert der Korrelationsfunktion zwischen dem Signal B und einem Signal, welches die zeitliche Länge T hat und verzögert ist von dem Signal A um die Zeitverzögerung t für 0 &le; &tau; < T berechnet.
  • Bei Schritt 1604 wird eine Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, bestimmt.
  • Bezugnehmend zurück auf Fig. 13 wird der Wert der Korrelationsfunktion COR auf die folgende Art berechnet. Wenn die Zeitverzögerung &tau; positiv ist, wird das Signal B als Referenz festgelegt, und ein Signal A' = x(ip1 + &tau; + m) (wobei 0 &le; m &le; T - 1) verzögert um die Zeit &tau; von dem Signal A wird verwendet, wie im Schritt 1304 gezeigt. Andererseits, wenn die Zeitverzögerung negativ ist, wird das Signal A als Referenz festgelegt, und ein Signal B' = x(ip2 - &tau; + m) (wobei 0 &le; m &le; T - 1) verzögert um die Zeit -&tau; von dem Signal B wird verwendet, wie in Schritt 1303 gezeigt. Des Weiteren werden ein maximaler Wert &tau;max+ der Zeitverzögerung z und ein minimaler Wert &tau;max- der Zeitverzögerung &tau; vorgegeben, um den Bereich der Zeitverzögerung -r zu begrenzen, basierend auf welchem die Korrelationsfunktion berechnet werden soll. Die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, kann so erhalten werden.
  • Bei Schritt 1605 wird eine zeitliche Länge Tt, während welcher das Eingangssignal direkt ausgegeben wird, wie in Fig. 17 gezeigt, berechnet. Für die Berechnung der zeitlichen Länge Tt, welche das Segment bzw. den Abschnitt des Eingangssignals, welches direkt ausgegeben wird, definiert, ist die Berechnungsformel unterschiedlich in Abhängigkeit von dem Vorzeichen von Tc. Insbesondere, wenn die Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, positiv ist, wird die zeitliche Länge Tt, während welcher das Eingangssignal direkt ausgegeben werden soll, wie in Schritt 1703 gezeigt, erhalten. Andererseits, wenn die Zeitverzögerung Tc, bei welcher die Korrelationsfunktion am größten wird, negativ ist, wird die zeitliche Länge Tt, während welcher das Eingangssignal direkt ausgegeben werden soll, erhalten, wie in Schritt 1702 gezeigt.
  • Des Weiteren, wenn der Wert von Tc negativ ist, wird ein Ausgangssignal erhalten durch das Durchlaufen der Schritte 1607, 1608 und 1609. Wenn nicht, wird ein Ausgangssignal erhalten durch das Durchlaufen der Schritte 1610 und 1611. Hierin ist Wdec(i), wie in den Schritten 1608 und 1610 gezeigt, eine Fensterfunktion, wobei die Größe des Fensters 1 ist, wenn i 0 ist, die Größe verringert sich monoton auf eine lineare Art, wenn sich i erhöht und erreicht 0, wenn i gleich T - 1 ist. Winc(i), wie in den Schritten 1608 und 1610 gezeigt, ist eine Fensterfunktion, wobei die Größe des Fensters 0 ist, wenn i 0 ist, die Größe erhöht sich monoton auf eine lineare Art, wenn sich i erhöht und erreicht 1, wenn i gleich T - 1 ist.
  • Fig. 18 zeigt, wie das Ausgangssignal erhalten wird in Fällen, wenn der Wert der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, 0 ist, wobei Tc positiv ist, und wobei Tc negativ ist. Es kann gesehen werden, dass wenn die Zeitverzögerung Tc positiv ist, Tt kürzer ist als wenn Tc 0 ist. Andererseits, wenn Tc negativ ist, ist Tt länger. Dies kommt daher, weil die Länge von Tt angepasst bzw. abgeglichen wird in Abhängigkeit von der Versetzung bzw. Verschiebung von Tc, um das Auftreten einer Abweichung von dem vorgegebenen bzw. eingestellten Zeitskalenmodifikationsverhältnis &alpha; zu verhindern. Wenn die Verarbeitung fortgesetzt werden soll, werden die Adressen angezeigt durch die Eingangsdaten-Pointer und Ausgangsdaten-Pointer, wie in Schritt 1613 gezeigt aktualisiert und dann wird das Verfahren beginnend mit Schritt 1602 wiederholt.
  • Gemäß dem oben beschriebenen Sprachzeitskalenmodifikationsverfahren kann ein Verfahren zum Expandieren bzw. Ausdehnen der Wiedergabezeit (ein Verfahren zum Verringern der Wiedergabegeschwindigkeit ohne eine Veränderung der Tonhöhe der Sprache) realisiert werden, was die hiernach beschriebenen Merkmale aufweist.
  • Bei Schritt 1603 wird ein Wert der Korrelationsfunktion berechnet unter Verwendung des Pointers P1 oder P2 als Referenz, und bei Schritt 1608 oder 1610 werden das Signal A oder das Signal A' und das Signal B' oder das Signal B gewichtet mit der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, und dann zusammen addiert. Dies verhindert, dass eine signifikante Phasen- Fehlanpassung zwischen den Segmenten bzw. Abschnitten auftritt, wo die Signale miteinander verbunden werden.
  • Bei Schritt 1608 oder 1610, vor dem Addieren, wird das Signal B' oder B multipliziert mit der Fensterfunktion Wdec(i), deren Amplitude sich monoton mit der Zeit verringert, und das Signal A oder das Signal A' wird multipliziert mit der Fensterfunktion Winc(i), deren Amplitude sich monoton mit der Zeit erhöht. Dies stellt eine gute Amplitudenstetigkeit zwischen den Segmenten sicher, wo die Signale miteinander verbunden werden. Mit den obigen Vorgängen kann die Wiedergabe eines gleichmäßigen, natürlichen und klaren Klanges ohne einen signifikanten Verlust einer Information und mit verringerten Echo-Effekten erhalten werden, was nach dem Stand der Technik nicht möglich war.
  • Es sollte auch angemerkt werden, dass bei Schritt 1605 die zeitliche Länge Tt, während welcher das Eingangssignal, welches auf das Signal A oder das Signal A' folgt, direkt ausgegeben wird, nachdem die Gewichtungsaddition berechnet wurde auf der Grundlage der Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird, so dass eine Veränderung von Tc keine Verschiebung bzw. Versetzung des Zeitskalenmodifikationsverhältnis &alpha; des tatsächlichen Ausgangssignals verursacht.
  • Des Weiteren ist die Länge des Segments, entlang welcher die Gewichtungs- Addition durchgeführt wird bei Schritt 1608 oder 1610, auf eine konstante Länge T festgelegt, welche unabhängig von dem Eingangssignal oder der Zeitverzögerung Tc ist, so dass keine Möglichkeit besteht, dass die Überblendungs(cross-fade)-Länge verringert wird aufgrund des Wertes von Tc. Der erhaltene Wiedergabeklang ist demzufolge gekennzeichnet durch gleichmäßige niederfrequente Komponenten bzw. Bestandteile, welche in den miteinander verbundenen Signalen enthalten sind.
  • Verschiedene andere Abwandlungen werden den Fachleuten offensichtlich werden und können von diesen leicht durchgeführt werden ohne von dem Schutzbereich dieser Erfindung, wie durch die beiliegenden Ansprüche definiert, abzuweichen.

Claims (9)

1. Vorrichtung zum Transformieren eines Eingangssignals mit einer zeitlichen Länge L in ein Ausgangssignal mit einer zeitlichen Länge &alpha;L in Abhängigkeit von einem gegebenen Zeitskalenmodifikationsverhältnis &alpha;, wobei die Vorrichtung aufweist:
(a) eine Eingabevorrichtung (12, 14; 12, 14, 15, 16) zum Eingeben eines ersten Signals, welches eine zeitliche Länge von mindestens T hat und eines zweiten Signals, welches eine zeitliche Länge hat, die gleich zu der zeitlichen Länge des ersten Signals ist, ein Startpunkt des zweiten Signals ist von einem Startpunkt des ersten Signals um eine zeitliche Länge T verzögert;
(b) eine Korrelationsvorrichtung (17) zum Berechnen eines Werts einer Korrelationsfunktion zwischen dem ersten Signal und dem zweiten Signal und zum Bestimmen einer zeitlichen Verzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird;
(c) eine Fensterfunktionserzeugungsvorrichtung (18) zum Erzeugen einer ersten Fensterfunktion und einer zweiten Fensterfunktion in Abhängigkeit von dem Zeitskalenmodifikationsverhältnis &alpha; und der Zeitverzögerung Tc;
(d) eine erste Multipliziervorrichtung (19) zur Erzeugung eines Produkts, welches erhalten wird aus dem ersten Signal und der ersten Fensterfunktion;
(e) eine zweite Multipliziervorrichtung (20) zum Erzeugen eines Produkts, welches erhalten wird aus dem zweiten Signal und der zweiten Fensterfunktion;
(f) eine Addiervorrichtung (21) zum Addieren der Ausgabe der ersten Multipliziervorrichtung (19) zu der Ausgabe der zweiten Multipliziervorrichtung (20) mit einer Verschiebung bzw. Versetzung der Zeitverzögerung Tc; und
(g) eine Ausgabevorrichtung (22) zum Selektiven Ausgeben der Ausgabe der Addiervorrichtung (21) und eines dritten Signals, welches auf die Ausgabe der Addiervorrichtung (21) folgt, so dass die Summe einer zeitlichen Länge der Ausgabe der Addiervorrichtung (21) und einer zeitlichen Länge des dritten Signals im wesentlichen gleich zu einer zeitlichen Länge ist, welche definiert ist durch das Zeitskalenmodifikationsverhältnis &alpha;, die Zeitverzögerung Tc und die zeitliche Länge T,
dadurch gekennzeichnet, dass
(h) die Eingabevorrichtung (12, 14; 12, 14, 15, 16) zum Eingeben des ersten Signals und des zweiten Signals jedes mit einer zeitlichen Länge M ist, welche mindestens T ist und kleiner als 2T ist;
(i) die Vorrichtung weiter eine Lesevorrichtung (24) aufweist, zum Lesen eines Teils des ersten Signals und eines Teils des zweiten Signals in Abhängigkeit von der Zeitverzögerung Tc;
(j) die erste Multipliziervorrichtung (19) zum Multiplizieren des Teils des ersten Signals mit der ersten Fensterfunktion ist;
(k) die zweite Multipliziervorrichtung (20) zum Multiplizieren des Teils des zweiten Signals mit der zweiten Fensterfunktion ist; und
(l) die Addiervorrichtung (21) zum Addieren der Ausgabe der ersten Multipliziervorrichtung (19) und der Ausgabe der zweiten Multipliziervorrichtung (20) mit einer Überlappung mit der zeitlichen Länge T ist.
2. Verfahren zum Transformieren eines Eingangssignals mit einer zeitlichen Länge L in ein Ausgangssignal mit einer zeitlichen Länge &alpha;L in Abhängigkeit von einem gegebenen Zeitskalenmodifikationsverhältnis &alpha;, welches eine Bedingung &alpha; &ge; 1 erfüllt, wobei das Verfahren die Schritte aufweist:
(&alpha;) Eingeben eines ersten Signals, welches eine zeitliche Länge T von einem Startpunkt hat und eines zweiten Signals, welches die zeitliche Länge bzw. Zeitdauer T hat und auf das erste Signal folgt;
(b) Berechnen eines Werts einer Korrelationsfunktion zwischen dem ersten Signal und dem zweiten Signal und Bestimmen einer Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird;
(c) Erhalten eines dritten Signals, welches die zeitliche Länge T hat und verzögert ist von dem ersten Signal um die Zeitverzögerung Tc und eines vierten Signals, welches die zeitliche Länge bzw. Zeitdauer T hat und verzögert ist von dem zweiten Signal um die Zeitverzögerung Tc;
(d) Erzeugen einer ersten Fensterfunktion, welche monoton ansteigt und einer zweiten Fensterfunktion, welche monoton abnimmt auf eine komplementäre Art zu der ersten Fensterfunktion in Abhängigkeit von dem Zeitskalenmodifikationsverhältnis &alpha; und der Zeitverzögerung Tc;
(e) Durchführen eines ersten Ausgabeschritts, wenn die Zeitverzögerung Tc eine Bedingung Tc < 0 erfüllt, wobei der erste Schritt die Schritte umfasst:
(e1) Erhalten eines fünften Signals, welches die zeitliche Länge T von einem Startpunkt des zweiten Signals aus hat;
(e2) Erhalten eines ersten Multiplikationsergebnisses durch Multiplizieren des ersten Signals mit der ersten Fensterfunktion;
(e3) Erhalten eines zweiten Multiplikationsergebnisses durch Multiplizieren des vierten Signals mit der zweiten Fensterfunktion;
(e4) Erhalten eines Additionsergebnisses durch Addieren des ersten Multiplikationsergebnisses zu dem zweiten Multiplikationsergebnis; und
(e5) selektives Ausgeben des fünften Signals, des Additionsergebnisses und eines sechsten Signals, welches auf das erste Signal folgt, so dass die Summe einer zeitlichen Länge des fünften Signals, einer zeitlichen Länge des Additionsergebnis und einer zeitlichen Länge des sechsten Signals im wesentlichen gleich zu einer vorgegebenen ersten zeitlichen Länge ist, definiert durch das Zeitskalenmodifikationsverhältnis &alpha;, die Zeitverzögerung Tc und die zeitliche Länge T;
(f) Durchführen eines zweiten Ausgabeschritts, wenn die Zeitverzögerung Tc eine Bedingung Tc &ge; 0 erfüllt, wobei der zweite Schritt die Schritte umfasst:
(f1) Erhalten eines ersten Multiplikationsergebnisses durch Multiplizieren des dritten Signals mit der ersten Fensterfunktion;
(f2) Erhalten eines zweiten Multiplikationsergebnisses durch Multiplizieren des zweiten Signals mit der zweiten Fensterfunktion;
(f3) Erhalten eines Additionsergebnisses durch Addieren des ersten Multiplikationsergebnisses zu dem zweiten Multiplikationsergebnis; und
(f4) selektives Ausgeben des Additionsergebnisses und eines siebten Signals, welches auf das dritte Signal folgt, so dass die Summe einer zeitlichen Länge bzw. Zeitdauer des Additionsergebnisses und einer zeitlichen Länge des siebten Signals im wesentlichen gleich zu einer vorgegebenen ersten zeitlichen Länge bzw. Zeitdauer ist, definiert durch das Zeitskalenmodifikationsverhältnis &alpha;, die Zeitverzögerung Tc und die zeitliche Länge T;
(g) Addieren einer vorgegebenen zweiten zeitlichen Länge, definiert durch das Zeitskalenmodifikationsverhältnis &alpha;, die Zeitverzögerung Tc und die zeitliche Länge T zu dem Startpunkt des ersten Signals; und
(h) Wiederholen des Schrittes (&alpha;) bis Schritt (g).
3. Verfahren nach Anspruch 2, wobei die vorgegebene erste zeitliche Länge dargestellt wird durch eine Gleichung &alpha;(T - Tc)/(&alpha; - 1) und die vorgegebene zweite zeitliche Länge ist dargestellt durch eine Gleichung (T - Tc)/(&alpha; - 1).
4. Verfahren nach Anspruch 2, wobei der Schritt (b) die Schritte umfasst:
Berechnen eines Wertes einer Korrelationsfunktion zwischen dem ersten Signal und einem Signal, welches die zeitliche Länge bzw. Zeitdauer T hat und verzögert ist von dem zweiten Signal um (-&tau;) für -T < &tau; < 0;
Berechnen eines Wertes der Korrelationsfunktion zwischen dem zweiten Signal und einem Signal, welches die zeitliche Länge T aufweist und verzögert ist von dem ersten Signal um &tau; für 0 &le; &tau; < T;
Bestimmen einer Zeitverzögerung Tc bei welcher der Wert der Korrelationsfunktion am größten wird für -T < &tau; < T.
5. Verfahren nach Anspruch 4, wobei die Korrelationsfunktion definiert ist durch:
R(&tau;) = x(ip1 + m)·x(ip2 - &tau; + m)
für -T < &tau; < 0; und
R(&tau;) = x(ip1 + &tau; + m)·x(ip2 + m)
für 0 &le; &tau; < T;
wobei ip1 einen Startpunkt des ersten Signals und ip2 einen Startpunkt des zweiten Signals bezeichnet.
6. Verfahren zum Transformieren eines Eingangssignals mit einer zeitlichen Längen L in ein Ausgangssignal mit einer zeitlichen Länge &alpha;L in Abhängigkeit von einem vorgegebenen Zeitskalenmodifikationsverhältnis &alpha;, was eine Bedingung &alpha; &le; 1 erfüllt, wobei das Verfahren die Schritte aufweist:
(&alpha;) Eingeben eines ersten Signals, welches eine zeitliche Länge T von einem Startpunkt hat und eines zweiten Signals, welches die zeitliche Länge bzw. Zeitdauer T hat und auf das erste Signal folgt;
(b) Berechnen eines Werts einer Korrelationsfunktion zwischen dem ersten Signal und dem zweiten Signal und Bestimmen einer Zeitverzögerung Tc, bei welcher der Wert der Korrelationsfunktion am größten wird;
(c) Erhalten eines dritten Signals, welches die zeitliche Länge T hat und verzögert ist von dem ersten Signal um die Zeitverzögerung Tc und eines vierten Signals, welches die zeitliche Länge bzw. Zeitdauer T hat und verzögert ist von dem zweiten Signal um die Zeitverzögerung Tc;
(d) Erzeugen einer ersten Fensterfunktion, welche monoton abnimmt und einer zweiten Fensterfunktion, welche monoton ansteigt auf eine komplementäre Art zu der ersten Fensterfunktion in Abhängigkeit von dem Zeitskalenmodifikationsverhältnis &alpha; und der Zeitverzögerung Tc;
(e) Durchführen eines ersten Ausgabeschritts, wenn die Zeitverzögerung Tc eine Bedingung Tc > 0 erfüllt, wobei der erste Schritt die Schritte umfasst:
(e1) Erhalten eines fünften Signals, welches die zeitliche Länge T von einem Startpunkt des ersten Signals aus hat;
(e2) Erhalten eines ersten Multiplikationsergebnisses durch Multiplizieren des dritten Signals mit der ersten Fensterfunktion;
(e3) Erhalten eines zweiten Multiplikationsergebnisses durch Multiplizieren; des zweiten Signals mit der zweiten Fensterfunktion;
(e4) Erhalten eines Additionsergebnisses durch Addieren des ersten Multiplikationsergebnisses zu dem zweiten Multiplikationsergebnis; und
(e5) selektives Ausgeben des zweite Signals, des Additionsergebnisses und eines sechsten Signals, welches auf das zweite Signal folgt, so dass die Summe einer zeitlichen Länge des fünften Signals, einer zeitlichen Länge des Additionsergebnis und einer zeitlichen Länge des sechsten Signals im wesentlichen gleich zu einer vorgegebenen ersten zeitlichen Länge ist, definiert durch das Zeitskalenmodifikationsverhältnis &alpha;, die Zeitverzögerung Tc und die zeitliche Länge T;
(f) Durchführen eines zweiten Ausgabeschritts, wenn die Zeitverzögerung Tc eine Bedingung Tc &le; 0 erfüllt, wobei der zweite Schritt die Schritte umfasst:
(f1) Erhalten eines ersten Multiplikationsergebnisses durch Multiplizieren des ersten Signals mit der ersten Fensterfunktion;
(f2) Erhalten eines zweiten Multiplikationsergebnisses durch Multiplizieren des vierten Signals mit der zweiten Fensterfunktion;
(f3) Erhalten eines Additionsergebnisses durch Addieren des ersten Multiplikationsergebnisses zu dem zweiten Multiplikationsergebnis; und
(f4) selektives Ausgeben des Additionsergebnisses und eines siebten Signals, welches auf das vierte Signal folgt, so dass die Summe einer zeitlichen Länge bzw. Zeitdauer des Additionsergebnisses und einer zeitlichen Länge des siebten Signals im wesentlichen gleich zu einer vorgegebenen ersten zeitlichen Länge bzw. Zeitdauer ist, definiert durch das Zeitskalenmodifikationsverhältnis &alpha;, die Zeitverzögerung Tc und die zeitliche Länge T;
(g) Addieren einer vorgegebenen zweiten zeitlichen Länge, definiert durch das Zeitskalenmodifikationsverhältnis &alpha;, die Zeitverzögerung Tc und die zeitliche Länge T zu dem Startpunkt des ersten Signals; und
(h) Wiederholen des Schrittes (&alpha;) bis Schritt (g).
7. Verfahren nach Anspruch 6, wobei die vorgegebene erste zeitliche Länge dargestellt wird durch eine Gleichung &alpha;(T - Tc)/(1 - &alpha;) und die vorgegebene zweite zeitliche Länge ist dargestellt durch eine Gleichung (T - Tc)/(1 - &alpha;).
8. Verfahren nach Anspruch 6, wobei der Schritt (b) die Schritte umfasst:
Berechnen eines Wertes einer Korrelationsfunktion zwischen dem ersten Signal und einem Signal, welches die zeitliche Länge bzw. Zeitdauer T hat und verzögert ist von dem zweiten Signal um (-&tau;) für -T < &tau; < 0;
Berechnen eines Wertes der Korrelationsfunktion zwischen dem zweiten Signal und einem Signal, welches die zeitliche Länge T aufweist und verzögert ist von dem ersten Signal um &tau; für 0 &le; &tau; &le; T;
Bestimmen einer Zeitverzögerung Tc bei welcher der Wert der Korrelationsfunktion am größten wird für -T < &tau; < T.
9. Verfahren nach Anspruch 8, wobei die Korrelationsfunktion definiert ist durch:
(&tau;) = x(ip1 + m)·x(ip2 - &tau; + m)
für -T < &tau; < 0; und
R(&tau;) = x(ip1 + &tau; + m)·x(ip2 + m)
für 0 &le; &tau; < T;
wobei ip1 einen Startpunkt des ersten Signals und ip2 einen Startpunkt des zweiten Signals bezeichnet.
DE69428612T 1993-01-25 1994-01-25 Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen Expired - Fee Related DE69428612T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP00973793A JP3147562B2 (ja) 1993-01-25 1993-01-25 音声速度変換方法
JP14922493A JP3156020B2 (ja) 1993-06-21 1993-06-21 音声速度変換方法

Publications (2)

Publication Number Publication Date
DE69428612D1 DE69428612D1 (de) 2001-11-22
DE69428612T2 true DE69428612T2 (de) 2002-07-11

Family

ID=26344518

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69428612T Expired - Fee Related DE69428612T2 (de) 1993-01-25 1994-01-25 Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen

Country Status (3)

Country Link
US (1) US5630013A (de)
EP (1) EP0608833B1 (de)
DE (1) DE69428612T2 (de)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4227826C2 (de) * 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
JP2976860B2 (ja) * 1995-09-13 1999-11-10 松下電器産業株式会社 再生装置
KR100251497B1 (ko) * 1995-09-30 2000-06-01 윤종용 음성신호 변속재생방법 및 그 장치
JPH09198089A (ja) * 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US5806023A (en) * 1996-02-23 1998-09-08 Motorola, Inc. Method and apparatus for time-scale modification of a signal
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US6049766A (en) * 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
DE69736279T2 (de) * 1996-11-11 2006-12-07 Matsushita Electric Industrial Co., Ltd., Kadoma Tonwiedergabe-geschwindigkeitsumwandler
DE19710545C1 (de) * 1997-03-14 1997-12-04 Grundig Ag Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
JP2955247B2 (ja) * 1997-03-14 1999-10-04 日本放送協会 話速変換方法およびその装置
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
US6182042B1 (en) 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6374225B1 (en) * 1998-10-09 2002-04-16 Enounce, Incorporated Method and apparatus to prepare listener-interest-filtered works
EP1501075B1 (de) * 1998-11-13 2009-04-15 Lernout &amp; Hauspie Speech Products N.V. Sprachsynthese mittels Verknüpfung von Sprachwellenformen
DE69940747D1 (de) * 1998-11-13 2009-05-28 Lernout & Hauspie Speechprod Sprachsynthese mittels Verknüpfung von Sprachwellenformen
US6625655B2 (en) * 1999-05-04 2003-09-23 Enounce, Incorporated Method and apparatus for providing continuous playback or distribution of audio and audio-visual streamed multimedia reveived over networks having non-deterministic delays
US6625656B2 (en) * 1999-05-04 2003-09-23 Enounce, Incorporated Method and apparatus for continuous playback or distribution of information including audio-visual streamed multimedia
AU4200600A (en) * 1999-09-16 2001-04-17 Enounce, Incorporated Method and apparatus to determine and use audience affinity and aptitude
US6718309B1 (en) 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
AU2002307533B2 (en) 2001-05-10 2008-01-31 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
US7366659B2 (en) * 2002-06-07 2008-04-29 Lucent Technologies Inc. Methods and devices for selectively generating time-scaled sound signals
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals
US8340972B2 (en) * 2003-06-27 2012-12-25 Motorola Mobility Llc Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
US6999922B2 (en) * 2003-06-27 2006-02-14 Motorola, Inc. Synchronization and overlap method and system for single buffer speech compression and expansion
DE10345539A1 (de) * 2003-09-30 2005-04-28 Siemens Ag Verfahren und Anordnung zur Audioübertragung, insbesondere Sprachübertragung
EP1704558B8 (de) * 2004-01-16 2011-09-21 Nuance Communications, Inc. Corpus-gestützte sprachsynthese auf der basis von segmentrekombination
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
CN101203907B (zh) 2005-06-23 2011-09-28 松下电器产业株式会社 音频编码装置、音频解码装置以及音频编码信息传输装置
US8073704B2 (en) * 2006-01-24 2011-12-06 Panasonic Corporation Conversion device
US8027377B2 (en) * 2006-08-14 2011-09-27 Intersil Americas Inc. Differential driver with common-mode voltage tracking and method
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
TWI365442B (en) * 2008-04-09 2012-06-01 Realtek Semiconductor Corp Audio signal processing method
US20100263005A1 (en) * 2009-04-08 2010-10-14 Eric Foster White Method and system for egnaging interactive web content
CN102117613B (zh) * 2009-12-31 2012-12-12 展讯通信(上海)有限公司 数字音频变速处理方法及其设备
US20140013268A1 (en) * 2012-07-09 2014-01-09 Mobitude, LLC, a Delaware LLC Method for creating a scripted exchange

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3786195A (en) * 1971-08-13 1974-01-15 Dc Dt Liquidating Partnership Variable delay line signal processor for sound reproduction
US4246617A (en) * 1979-07-30 1981-01-20 Massachusetts Institute Of Technology Digital system for changing the rate of recorded speech
US4464784A (en) * 1981-04-30 1984-08-07 Eventide Clockworks, Inc. Pitch changer with glitch minimizer
US4722009A (en) * 1985-04-02 1988-01-26 Matsushita Electric Industrial Co., Ltd. Tone restoring apparatus
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
DE69024919T2 (de) * 1989-10-06 1996-10-17 Matsushita Electric Ind Co Ltd Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals

Also Published As

Publication number Publication date
EP0608833B1 (de) 2001-10-17
US5630013A (en) 1997-05-13
DE69428612D1 (de) 2001-11-22
EP0608833A2 (de) 1994-08-03
EP0608833A3 (de) 1995-01-25

Similar Documents

Publication Publication Date Title
DE69428612T2 (de) Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen
DE69024919T2 (de) Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE69230324T2 (de) Verfahren zur Zeitskalenmodifikation von Signalen
DE60012198T2 (de) Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung
DE3851381T2 (de) Schaltung zur Kompression/Expansion der Dynamik eines Signals.
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69529328T2 (de) Verfahren und Apparat zur Geräuschunterdrückung in einem Sprachsignal und korrespondierendes System mit Echounterdrückung
DE60009827T2 (de) Zeitskalenmodifikation eines audiosignals
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69219718T2 (de) Digitales Datenkodierungs-und Dekodierungsgerät mit hoher Wirksamkeit
DE69836472T2 (de) Tonverarbeitungsverfahren, tonprozessor und aufzeichnungs-/wiedergabevorrichtung
DE2740520A1 (de) Verfahren und anordnung zur synthese von sprache
DE3036680A1 (de) Sprachsynthesizer mit dehnbarer und komprimierbarer sprachzeit
DE69624743T2 (de) Gerät zur Audiodatenverarbeitung
DE69126062T2 (de) System zur Sprachcodierung und -decodierung
DE69612958T2 (de) Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
DE69934069T2 (de) Schalleffekt Addiergerät
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE69717377T2 (de) Sprachgeschwindigkeitsumwandler
DE69736279T2 (de) Tonwiedergabe-geschwindigkeitsumwandler
DE4218623C2 (de) Sprachsynthesizer
EP0865026B1 (de) Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
DE60214409T2 (de) Verfahren und vorrichtung zur zweiphasen-grundfrequenzdetektion

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee