DE10302448B4

DE10302448B4 - Verfahren zur synchronisierten Veränderung der Tonhöhe und -länge eines Audiosignals

Info

Publication number: DE10302448B4
Application number: DE2003102448
Authority: DE
Inventors: Mira Meemken; Jörg Bitzer
Original assignee: Individual
Current assignee: HOUPERT, JOERG, 28359 BREMEN, DE
Priority date: 2003-01-21
Filing date: 2003-01-21
Publication date: 2006-08-17
Anticipated expiration: 2023-01-22
Also published as: DE10302448A1

Abstract

Verfahren zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate, dadurch gekennzeichnet, dass das Audiosignal in wenigstens zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal zugeführt wird, dass die zeitliche Dauer und/oder die Tonhöhe der Teilsignale auf unterschiedliche Weise verändert wird, dass die gesonderte Bearbeitung der wenigstens zwei Teilsignale wenigstens zeitweise synchronisiert wird und dass die gesondert bearbeiteten Teilsignale danach zu einem Ausgangssignal zusammengefasst werden.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate mit besonderer Natürlichkeit an Transienten. Außerdem betrifft die Erfindung ein Computerprogramm zur Umsetzung des Verfahrens und einen Datenträger mit einem solchen Computerprogramm.

Bei der Verarbeitung von Audiosignalen kann es beispielsweise im Musikproduktionsprozess notwendig sein, bereits aufgenommene Stimmen und/oder Instrumente zu verändern oder zu verfremden, ohne eine erneute Aufnahme durchführen zu müssen. Beispiele hierfür können eine Veränderung des Tempos eines Musikstückes oder eine nachträgliche Veränderung der Tonlage sein. Zusätzlich werden neue kreative Möglichkeiten geschaffen, Musik zu gestalten.

Bekannte Verfahren zur zeitlichen Veränderung, insbesondere zur Verlängerung von Audiosignalen, und zur Veränderung der Tonhöhe von Audiosignalen sind beispielsweise in "Time and Pitch scale modification of audio signals", Jean Laroche in M. Kahrs und Karlheinz Brandenburg (Hrsg.), Applications of Digital Signal Processing to Audio and Acoustics, Kluwer Academic Press, 1998, Kapitel 7, S. 279-310, beschrieben.

Die bekannten Verfahren zur zeitlichen Veränderung lassen sich in zwei Grundtechniken einteilen.

Zum einen gibt es Lösungen im Zeitbereich. Eine Vorraussetzung für diese Algorithmen ist die Annahme, dass das zu verändernde Signal monophon ist, also nicht ein Gemisch aus mehreren Instrumenten darstellt. Beispiele für derartige Lösungen sind das Pitch Synchrone Splicing (PSS) und das Pitch Synchrone Overlap Add (PSOLA) Verfahren. Beim PSS Verfahren basiert die Veränderung der Signallänge auf einer zeitlichen Wiederholung von kurzen Abschnitten, wobei eine Wiederholung im Raster der Grundfrequenz als besonders vorteilhaft gilt. Beim PSOLA Verfahren wird zusätzlich eine Fensterung vorgesehen, bevor die neuen Signalabschnitte in das Ausgangssignal eingefügt werden. Die einzufügenden Signalabschnitte sind wiederum gefensterte Wiederholungen des Eingangssignals im Abstand der Grundfrequenz. Zusätzlich ist eine Bestimmung der Grundfrequenz notwendig, wozu eine Vielzahl bekannter Algorithmen zur Verfügung steht.

Als besonderer Nachteil des PSOLA Verfahrens hat sich das Einbringen von Langzeitkorrelation durch die Wiederholung fester Signalabschnitte erwiesen. Das Ausgangssignal enthält durch die Wiederholung einen unnatürlichen Klang, der insbesondere bei Singstimmen zu einer nicht annehmbaren Qualität führt.

Zum anderen sind Lösungen im Frequenzbereich bekannt. Sie nutzen das bekannte Fourier-Theorem, dass sich jedes komplexe Signal als eine Zerlegung von Sinusschwingungen darstellen lässt. Mit diesem Verfahren lassen sich auch Gemische aus mehreren Signalen, z.B. Instrumenten, zeitlich verändern.

Bei den Frequenzbereichsverfahren hat sich der sog. Phase-Vocoder als besonders vorteilhaft erwiesen. Bei diesem Verfahren werden die im Frequenzbereich vorliegenden Kurzzeitspektren in ein neues starres Raster abgebildet, das dem Faktor der zeitlichen Veränderung entspricht. Beispielsweise werden bei einer Verdoppelung der Tonlänge zwischen den Kurzzeitbetragsspektren neue geschätzte Spektren eingefügt. Die Berechnung der neuen Spektren erfolgt mittels geeigneter Interpolationsverfahren.

Als nachteilig bei den Frequenzbereichsverfahren hat sich erwiesen, dass durch die Interpolation im Frequenzbereich Impulse im Zeitbereich deutlich gestreckt werden und deshalb impulshafte Signale eine zu große Weichheit bekommen.

Für die Veränderung der Tonhöhe sind bisher zwei grundsätzliche Verfahren bekannt. Beim ersten Verfahren wird das zu verändernde Signal um einen bestimmten Faktor verlängert oder verkürzt, um dann mit einer veränderten Auslesegeschwindigkeit, bzw. einem sog. Resampling, ein in der Tonhöhe verändertes Signal zu erhalten. Beispielsweise ist bei einer Veränderung der Tonhöhe um eine Oktave (doppelte Frequenz) eine Verlängerung des Signals um den Faktor zwei notwendig. Wird nun nur jeder zweite Abtastwert ausgelesen und wurde das Signal vorher zur Vermeidung von Aliasing tiefpassgefiltert, wird ein Signal mit der doppelten Frequenz gewonnen. Bei Anwendung des Verfahrens stellt sich jedoch heraus, dass das natürliche Resonanzverhalten eines Instrumentes (die Formanten) ebenfalls verschoben werden. Das neue Ausgangssignal hat einen besonders unnatürlichen Klang. Bei Sprache wird dies durch den sogenannten Mickey-Mouse-Effekt deutlich.

Das zweite Verfahren zur Veränderung der Tonhöhe vermeidet dieses Problem, indem ein Verfahren gewählt wird, dass dem PSOLA Verfahren entlehnt ist, nach dem Erfinder als Lent-Algorithmus bezeichnet wird und in „An efficent method for pitch shifting digitally sampled sounds", K. Lent, Computer Music Journal, 13(4):65-71, 1989 beschrieben ist. Dabei wird zur Bildung des neuen Ausgangssignals eine Überlappung der Teilabschnitte im Raster der gewünschten neuen Grundfrequenz durchgeführt. Das Formantverhalten bleibt konstant, aber die Grundfrequenz kann so verändert werden. Bei natürlichen Signalen, insbesondere bei einer Singstimme, verändern sich aber die Formanten leicht. Aus diesem Grund hat sich die Kombination aus dem Lent-Algorithmus mit einem anschließenden Resampling, das nur mit einer sehr geringen Verschiebung arbeitet, als besonders günstig herausgestellt.

Allen bekannten Verfahren ist gemeinsam, dass nur eine Rechenvorschrift für die Tonhöhentransformation nach oben und unten verwendet wird und dass das Eingangssignal breitbandig und als ganzes verändert wird. Außerdem treten bei allen bekannten Verfahren mehr oder weniger unerwünschte Seiteneffekte auf, die es zu minimieren gilt. Entscheidend für die Güte eines Verfahrens ist immer die subjektiv wahrgenommene Qualität des Ausgangssignals nach der Veränderung.

US 5641926 A offenbart ein Verfahren und eine Vorrichtung zur Veränderung der Tonhöhe von Audiosignalen. Um aus einem Eingangston mittels einer Harmonie-Tabelle einen Chorklang zu erzeugen, werden dort für den Eingangston die entsprechenden Harmonischen herausgesucht und jeweils einem Harmonie-Generator zugeführt, worin für den Eingangston entsprechend der ermittelten Harmonischen ein Ton des gewünschten Chorklangs erzeugt wird. In jedem Harmonie-Generator wird also auf gleiche Weise der gewünschte Ton des Chorklangs aus dem Eingangston und einer Information bezüglich des zu erzeugenden Tons erzeugt. Am Ausgang werden diese Töne wieder zusammengefügt zu dem gewünschten Chorklang.

US 5952596 A beschreibt ein Verfahren zur Veränderung der Geschwindigkeit und der Tonhöhe von Audiosignalen mittels digitaler Signalverarbeitung. Aus der US 2001/0023399 A1 sind eine Audiosignalverarbeitungsvorrichtung und ein entsprechendes Verfahren bekannt, mit denen ein im Zeitbereich komprimiertes oder expandiertes Audiosignal wiedergegeben werden kann, ohne dass die Tonhöhe verändert wird.

In der DE 102 10 978 C1 ist ein Verfahren beschrieben, gemäß dem ein Audiosignal in wenigstens zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal zugeführt wird. In dem Bearbeitungskanal wird die zeitliche Dauer und/oder die Tonhöhe der Teilsignale auf unterschiedliche Weise gesondert verändert und die gesondert bearbeiteten Teilsignale werden danach zu einem Ausgangssignal zusammengefasst. Durch diese Bearbeitung ließ sich die Qualität des Ausgangssignals bereits steigern.

Ein weiteres in der DE 102 10 978 C1 beschriebenes Verfahren sieht vor, dass das Audiosignal wenigstens zwei parallelen Bearbeitungskanälen zugeführt wird, dass die zeitliche Dauer und/oder die Tonhöhe der Audiosignale auf unterschiedliche Weise gesondert verändert wird, dass die gesondert bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale aufgespalten werden und dass danach ein Ausgangssignal durch Kombination jeweils wenigstens eines Teilsignals jedes Bearbeitungskanals gebildet wird.

Diesen Verfahren ist gemeinsam, dass die Bearbeitungskanäle unabhängig voneinander arbeiten und somit keinerlei Informationen über die Art der Bearbeitung (z.B. Blocklänge des Verfahrens) bekannt sind. Dies kann zu einem Qualitätsverlust an Übergangslauten (Transienten) führen.

Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals anzugeben, mit denen sich eine weiter verbesserte Klangqualität, insbesondere an Transienten, erreichen lässt.

Diese Aufgabe wird erfindungsgemäß durch ein Verfahren nach Anspruch 1 dadurch gelöst, dass das Audiosignal in wenigstens zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal zugeführt wird, dass die zeitliche Dauer und/oder die Tonhöhe der Teilsignale auf unterschiedliche Weise verändert wird, dass die gesonderte Bearbeitung der wenigstens zwei Teilsignale wenigstens zeitweise synchronisiert wird und dass die gesondert bearbeiteten Teilsignale danach zu einem Ausgangssignal zusammengefasst werden.

Diese Aufgabe wird erfindungsgemäß auch durch ein Verfahren nach Anspruch 2 dadurch gelöst, dass die zeitliche Dauer und/oder die Tonhöhe der Audiosignale auf unterschiedliche Weise gesondert verändert wird, dass die gesonderte Bearbeitung des Audiosignals in den wenigstens zwei parallelen Bearbeitungskanälen wenigstens zeitweise synchronisiert wird, dass die gesondert bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale aufgespalten werden und dass danach ein Ausgangssignal durch Kombination jeweils wenigstens eines Teilsignals jedes Bearbeitungskanals gebildet wird.

Entsprechende erfindungsgemäße Vorrichtungen sind in den Ansprüchen 19 und 20 angegeben. Ein Computerprogramm zur Umsetzung der erfindungsgemäßen Verfahren ist in Anspruch 21 angegeben. Ein Datenträger mit einem solchen Computerprogramm ist in Anspruch 22 angegeben. Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben.

Erfindungsgemäß erfolgt also die Bearbeitung des Audiosignals in mehreren Bearbeitungskanälen. Jedoch wird die Bearbeitung der Teilsignale in den wenigstens zwei Bearbeitungskanälen durch eine Synchronisation gekoppelt. Die Synchronisation stellt sicher, dass die Bearbeitungskanäle zu bestimmten Zeitpunkten möglichst exakt denselben Signalabschnitt bearbeiten.

Durch die Erfindung kann die subjektiv wahrgenommene Qualität des Ausgangssignals signifikant verbessert werden. Der entscheidende Vorteil gegenüber den bekannten Verfahren ist, dass die einzelnen Bearbeitungskanäle nicht mehr völlig unabhängig voneinander arbeiten, sondern wenigstens zeitweise synchronisiert werden. Es kann also während der Verarbeitung Einfluss auf die Parameter des Verfahrens genommen werden, so dass z.B. eine Verschmierung der Transienten verhindert werden kann.

Gemäß einer bevorzugten Ausgestaltung der Erfindung erfolgt die Synchronisation der Bearbeitungskanäle durch eine Synchronisationseinheit, welche Steuersignale für die Synchronisation verarbeitet. Diese beinhalten Signale des Bearbeitungskanal, beispielsweise den tatsächlichen Faktor der zeitlichen Verlängerung des Audiosignal (Timestretchfaktor), die momentane Blocklänge, den momentanen Verarbeitungsstatus (z.B. Zeitpunkt im Originalsignal), und Signale zur Verwaltung, beispielsweise den angestrebten Faktor der zeitlichen Verlängerung des Audiosignal (Timestretchfaktor) oder den Synchronisationszeitpunkt, der vom Bearbeitungskanal eingehalten werden muss.

Weitere bevorzugte Ausgestaltungen der Synchronisation sind in den Ansprüchen 4 und 5 angegeben. Bevorzugt erfolgt demnach die Synchronisation der gesonderten Bearbeitung an Transienten im Audiosignal, wobei vorzugsweise die Transienten nicht verändert werden. Grundsätzlich ist die Synchronisation aber zu jedem beliebigen Zeitpunkt denkbar, z.B. zur Abstimmung mit einem zum Audiosignal gehörenden Videobild. Des weiteren kann beispielsweise durch Beeinflussung der Bearbeitungsparameter des jeweiligen Algorithmus (z.B. der Blocklänge oder des Timestretchfaktors) erreicht werden, dass (nur) zu bestimmten Zeitpunkten synchronisiert wird.

Gemäß einer bevorzugten Ausgestaltung der Erfindung erfolgt die gesonderte Bearbeitung in den wenigstens zwei parallelen Bearbeitungskanälen mittels desselben Verfahrens mit unterschiedlichen Parametern. Alternativ können auch völlig unterschiedliche Verfahren zum Einsatz kommen.

Bevorzugte Ausgestaltungen des erfindungsgemäßen Verfahrens zur Veränderung der Tonlänge sind in den Ansprüchen 7 bis 12 angegeben. Eine bevorzugte Ausgestaltung des erfindungsgemäßen Verfahrens zur Veränderung der Tonhöhe eines Audiosignals ist in Anspruch 13 angegeben.

Insbesondere hat sich eine Aufspaltung des Audiosignals durch Frequenzaufteilung in einzelne Frequenzbänder als vorteilhaft erwiesen. Zur Aufteilung kommen dabei bevorzugt linearphasige und/oder rein transversale Filter zum Einsatz. Grundsätzlich ist jedoch auch eine völlig andere Aufspaltung des Audiosignals, z.B. eine zeitliche Aufspaltung, in einzelne Teilsignale denkbar.

Für die bevorzugte Frequenzaufteilung gibt es grundsätzlich verschiedene Möglichkeiten. So ist es denkbar, die Frequenzaufteilung auf mehrere Teilsignale durch beliebige Zuordnung der Frequenzen zu den einzelnen Teilsignalen vorzunehmen, wobei auch die Möglichkeit umfasst sein soll, dass eines der Teilsignale dem Originalsignal entspricht.. Darüber hinaus kann die Frequenzaufteilung auch komplementär erfolgen, so dass der Frequenzbereich in mehrere, nicht überlappende Teilbereich aufgespalten wird. Bevorzugt ist die komplementäre Bandaufteilung, bei der der Frequenzbereich in einzelne jeweils zusammenhängende Frequenzbereiche unterteilt wird, die jeweils einem Teilsignal zugeordnet werden.

Die Erfindung soll nachfolgend anhand der in den Zeichnungen gezeigten Ausführungsbeispiele näher erläutert werden. Es zeigen:
1 ein Beispiel zum Verändern der Länge eines Audiosignals durch das sog. Pitch Synchrone Splicing Verfahren,
2 ein Beispiel zum Verändern der Länge eines Audiosignals durch das sog. Pitch Synchrone Overlap-Add (PSOLA) Verfahren,
3 die schematische Wirkungsweise des Phase-Vocoders zur Veränderung der Länge eines Audiosignals,
4 die Veränderung eines Impulses durch den Phase-Vocoder,
5 schematisch die Wirkungsweise des Resamplings zur Veränderung der Tonhöhe,
6 schematisch die Probleme bei Veränderung der Tonhöhe durch ein Resampling-Verfahren,
7 schematisch die Wirkungsweise des Lent-Algorithmus zum Verändern der Tonhöhe,
8 schematisch das Formantverhalten des Lent-Algorithmus bei einer Tonhöhenveränderung,
9 ein Blockschaltbild einer ersten Ausführungsform eines in der DE 102 10 978 C1 beschriebenen Verfahrens,
10 ein Blockschaltbild einer zweiten Ausführungsform eines in der DE 102 10 978 C1 beschriebenen Verfahrens,
11 schematisch die Auswirkung der Bearbeitung eines Signals ohne Synchronisation der Bearbeitungskanäle.
12 ein Blockschaltbild einer ersten allgemeinen Ausführungsform des erfindungsgemäßen Verfahrens,
13 ein Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens,
14 schematisch die Auswirkung der Synchronisation durch Anpassung der Blocklänge,
15 schematisch die Wirkungsweise der Erhaltung der Transienten bei der Synchronisation.
16 eine spezielle Form einer komplementären Filterbank zur effizienten Aufteilung eines Signals in zwei Bänder durch Nutzung linearphasiger FIR-Filter,
17 ein Blockschaltbild einer ersten Ausführungsform des erfindungsgemäßen Verfahrens zur Veränderung der Tonlänge,
18 ein Blockschaltbild einer ersten Ausführungsform des erfindungsgemäßen Verfahrens zur Veränderung der Tonhöhe,
19 ein Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens zur Veränderung der Tonlänge,
20 einen Tiefpass-Perioden-Synthesizer,
21 ein Blockschaltbild einer dritten Ausführungsform des erfindungsgemäßen Verfahrens zur Veränderung der Tonlänge,
22 ein Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens zur Veränderung der Tonhöhe,
23 ein Blockschaltbild einer dritten Ausführungsform des erfindungsgemäßen Verfahrens zur Veränderung der Tonhöhe,
24 ein Blockschaltbild einer vierten Ausführungsform des erfindungsgemäßen Verfahrens zur Veränderung der Tonhöhe und
25 verschiedene Möglichkeiten der Frequenzaufteilung von Audiosignalen.
Zur Erläuterung der eingangs genannten Zeitbereichsverfahren zur Veränderung der Tonlänge von Audiosignale sind das Pitch Synchrone Splicing (PSS) und das Pitch Synchrone Overlap Add (PSOLA) Verfahren in den 1 und 2 gezeigt. Beim PSS Zeitbereichsverfahren (1) basiert die Veränderung der Signallänge auf einer zeitlichen Wiederholung von kurzen Abschnitten, wobei eine Wiederholung im Raster der Grundfrequenz (Pitch-Abstand) als besonders vorteilhaft gilt. 1a zeigt ein originales Audiosignal aus dem zur zeitlichen Verlängerung kurze Signalabschnitte als Wiederholungen hinter den originalen Signalabschnitten eingefügt werden, um eine Verlängerung der zeitlichen Dauer des Audiosignals um den Faktor 2 zu erreichen. 1b zeigt ein solches zeitlich verlängertes Audiosignal.
Für das in 2 gezeigte PSOLA-Verfahren wird zusätzlich eine Fensterung mittels Fensterfunktionen (2a) vorgesehen, bevor die neuen Signalabschnitte in das Ausgangssignal eingefügt werden. Die einzufügenden Signalabschnitte sind wiederum gefensterte Wiederholungen des Eingangssignals im Abstand der Grundfrequenz. Zusätzlich ist eine Bestimmung der Grundfrequenz notwendig, wobei hierzu eine Vielzahl bekannter Algorithmen zur Verfügung steht. 2b zeigt das durch Einfügen der gefensterten Wiederholung zeitlich verlängerte Audiosignal.
Die Funktionsweise eines Phase-Vocoders zur Veränderung der Tonlänge mittels eines Frequenzbereichsverfahren ist in 3 erläutert. Bei diesem Verfahren werden die im Frequenzbereich vorliegenden Kurzzeitspektren – gezeigt sind in 3a und 3b Frequenzspektren zu unterschiedlichen Abtastzeitpunkten k – in ein neues starres Raster abgebildet, das dem Faktor der zeitlichen Veränderung entspricht. Beispielsweise werden bei einer Verdoppelung der Tonlänge zwischen den Kurzzeitbetragsspektren neue geschätzte Spektren eingefügt. Die Berechnung der neuen Spektren erfolgt mittels geeigneter Interpolationsverfahren. In den 3c und 3e sind die in den 3a und 3b gezeigten Spektren nochmals gezeigt, zwischen denen ein neues, aus diesen Spektren interpoliertes Spektrum (3d) für einen zwischen den Abtastzeitpunkten (k=1 und k=2) der originalen Spektren liegenden Abtastzeitpunkt (k=1.5) eingefügt wird, woraus sich ein neues Abtastzeitraster m=1, 2, 3 ergibt.
Als nachteilig bei dem Phase-Vocoder hat sich erwiesen, dass durch die Interpolation im Frequenzbereich Impulse im Zeitbereich deutlich gestreckt werden und deshalb impulshafte Signale eine zu große Weichheit bekommen. Beispielsweise wird dadurch ein in 4a gezeigtes impulshaftes Signal in ein gestrecktes in 4b gezeigtes Signal umgewandelt.
Das Resampling-Verfahren zur Veränderung der Tonhöhe ist in 5 näher erläutert. Dabei wird das zu verändernde Originalsignal (5a) um einen bestimmten Faktor verlängert (5b) oder verkürzt, um dann mit einer veränderten Auslesegeschwindigkeit, bzw. dem sog. Resampling, ein in der Tonhöhe verändertes Signal (5c) zu erhalten. Beispielsweise ist bei einer Veränderung der Tonhöhe um eine Oktave (doppelte Frequenz) eine Verlängerung des Signals um den Faktor zwei notwendig. Wird nun nur jeder zweite Abtastwert ausgelesen und wurde das Signal vorher zur Vermeidung von Aliasing tiefpassgefiltert, wird ein Signal mit der doppelten Frequenz gewonnen. Zur Veranschaulichung der Nachteile dieses Verfahrens ist in 6 das Formantverhalten beim Resampling verdeutlicht. Bei Anwendung des Verfahrens auf ein Originalsignal, dessen Spektrum beispielhaft in 6a gezeigt wird, stellt sich heraus, dass das natürliche Resonanzverhalten eines Instrumentes – die Formanten – ebenfalls verschoben werden. Das neue Ausgangssignal (6b) hat einen besonders unnatürlichen Klang. Bei Sprache wird dies durch den sog. Mickey-Mouse Effekt deutlich.
Der in 7 erläuterte Lent-Algorithmus zur Veränderung der Tonhöhe vermeidet dieses Problem. Dabei wird zur Bildung des neuen Ausgangssignals die Überlappung der Teilabschnitte im Raster der gewünschten neuen Grundfrequenz (Pitch-Abstand) durchgeführt. 7a zeigt ein Originalsignal. 7b zeigt ein neues Signal mit verringerter Tonhöhe, das durch Einfügen von Nullen zwischen Teilabschnitte des Originalsignals gebildet wird, bei dem also die Grundfrequenz verringert wird. 7d zeigt ein neues Signal mit gesteigerter Tonhöhe, das durch Überlappung der Perioden des Originalsignals wie in 7c gezeigt gebildet wird, bei dem also die Grundfrequenz erhöht wird.
Das Formantverhalten bleibt bei diesem Verfahren konstant, aber die Grundfrequenz kann so verändert werden, wie in 8 gezeigt ist. In 8a ist ein Spektrum eines Originalsignals (7a) vor Anwendung des Lent-Algorithmus gezeigt; in 8b ist ein Spektrum eines neuen Signals mit verringerter Tonhöhe (7b) nach Anwendung des Lent-Algorithmus gezeigt. Bei natürlichen Signalen, insbesondere bei einer Singstimme, verändern sich aber die Formanten leicht. Aus diesem Grund hat sich die Kombination aus dem Lent-Algorithmus mit einem anschließenden Resampling, das nur mit einer sehr geringen Verschiebung arbeitet, als besonders günstig herausgestellt.
Das in der DE 102 10 978 C1 beschriebene Verfahren soll anhand des in 9 gezeigten Blockschaltbildes näher erläutert werden. Das Verfahren basiert auf einer Aufspaltung des Eingangssignals x^All(k) mittels einer Trenneinheit 11. Am Ausgang der Trenneinheit 11 entstehen so zwei oder mehr Teilsignale, die im folgenden mit x₀(k) für ein erstes, x₁(k) für ein zweites und x_N-1(k) für ein N-tes Teilsignal bezeichnet werden. Jedes dieser Teilsignale wird nun einem gesonderten Bearbeitungskanal mit jeweils einer gesonderten Bearbeitungseinheit 12a, 12b, 12c zugeführt, in denen die einzelnen Teilsignale auf unterschiedliche Weise bearbeitet werden. Zur Beschreibung der unterschiedlichen Bearbeitung wird als allgemeines Symbol f(x₀(k)) eingeführt; somit sind die unterschiedlichen Bearbeitungsarten durch f₀(x₀(k)), f₁(x₁(k)) und f_N-1(x_N-1(k)) bezeichnet. Die Unterschiede in der Bearbeitung können dabei durch die Wahl unterschiedlicher Parameter eines bestimmten Verfahrens, das in allen Bearbeitungseinheiten 12a, 12b, 12c angewendet wird, oder durch unterschiedliche Verfahren erreicht werden. In einer abschließenden Kombinationseinheit 13 werden die unterschiedlich bearbeiteten Teilsignale y₀(k), y₁(k), ..., y_N-1(k) wieder zu einem Ausgangssignal y^All(k) zusammengesetzt.
Eine weitere Möglichkeit, das in der DE 102 10 978 C1 beschriebene Verfahren zu realisieren, ist bei der in 10 als Blockschaltbild gezeigten Vorrichtung verwirklicht. Hierbei wird das Eingangssignal x^All(k) ohne Modifikation vervielfältigt und den einzelnen Bearbeitungskanälen mit den unterschiedlichen Bearbeitungseinheiten 21a, 21b, 21c, die durch f₀(x^All(k)), f₁(x^All(k)) und f_N-1(x^All(k)) gekennzeichnet sind, zugeführt. Eine anschließende Aufspaltung mit einer Trenneinheit 22a, 22b, 22c in jedem Bearbeitungskanal führt zur Aufspaltung der Ausgangssignale y_i ^All(k) (i=0, 1,..., N-1) in jeweils N unterschiedliche Teilsignale y _{i_i} (k). In der abschließenden Kombinationseinheit 23 wird aus jedem Bearbeitungskanal jeweils ein Teilsignal ausgewählt und zum Ausgangssignal y^All(k) zusammengesetzt. In dem gezeigten Beispiel werden die Teilsignale y _{0_0} (k), y_{1_1}(k), ..., y _{N-1_N-1}(k) zu dem Ausgangssignal y^All(k) zusammengesetzt.
In 11 ist die Wirkungsweise des in der DE 102 10 978 C1 beschriebenen Verfahrens im Frequenzbereich dargestellt. Dabei wird das Originalsignal (11a), zunächst in 2 Frequenzbänder (Teilsignale) aufgeteilt. Das Originalsignal besteht hierbei aus einer Folge von 2 Tönen, wobei der Tonwechsel zum Zeitpunkt t₁ erfolgt. Die beiden Frequenzbänder werden um einen Faktor 1,5 getrennt voneinander mit unterschiedlichen Verfahren verlängert (11b ). Wie der 11b zu entnehmen ist, kommt es durch die unterschiedlichen Blocklängen, die zur Verlängerung der Teilsignale mit unterschiedlichen Verfahren verwendet wurden, zu einer Überlagerung der beiden im Originalsignal vorhandenen Töne zum Zeitpunkt 1,5 t₁. Daher hat es sich als günstig herausgestellt, eine solche Überlagerung durch die Synchronisation der Bearbeitungsverfahren an markanten Stellen im Signal zu vermeiden.
Das erfindungsgemäße Verfahren soll anhand des in 12 gezeigten Blockschaltbildes der erfindungsgemäßen Vorrichtung näher erläutert werden. Das Verfahren basiert, wie auch das erste in der DE 02 10 978 C1 beschriebene Verfahren, auf einer Aufspaltung des Eingangssignals x^All(k) mittels einer Trenneinheit 31. Am Ausgang der Trenneinheit 31 entstehen so zwei oder mehr Teilsignale, die im folgenden mit x₀(k) für ein erstes, x₁(k) für ein zweites und x_N-1(k) für ein N-tes Teilsignal bezeichnet werden. Jedes dieser Teilsignale wird nun einem gesonderten Bearbeitungskanal mit jeweils einer gesonderten Bearbeitungseinheit 33a, 33b, 33c zugeführt, in denen die einzelnen Teilsignale auf unterschiedliche Weise bearbeitet werden. Zur Beschreibung der unterschiedlichen Bearbeitung wird wiederum das Symbol f(x₀(k)) genutzt; somit sind die unterschiedlichen Bearbeitungsarten durch f₀(x₀(k)), f₁(x₁(k)) und f_N-1(x_N-1(k)) bezeichnet. Die Unterschiede in der Bearbeitung können dabei durch die Wahl unterschiedlicher Parameter eines bestimmten Verfahrens, das in allen Bearbeitungseinheiten 33a, 33b, 33c angewendet wird, oder durch unterschiedliche Verfahren erreicht werden. Außerdem werden die Teilsignale x₀(k), x₁(k) bis x_N-1(k) einer Synchronisationseinheit 32 zugeführt. Durch diese Synchronisationseinheit 32 wird die Bearbeitung der einzelnen Teilsignale überwacht und durch geeignete Steuersignale eine Synchronisation der Bearbeitungskanäle zu bestimmten Zeitpunkten im Signal erreicht. In einer abschließenden Kombinationseinheit 34 werden die unterschiedlich bearbeiteten Teilsignale y₀(k), y₁(k), ..., y_N-1(k) wieder zu einem Ausgangssignal y^All(k) zusammengesetzt.
Eine weitere Möglichkeit, das erfindungsgemäße Verfahren zu realisieren, ist bei der in 13 als Blockschaltbild gezeigten Vorrichtung verwirklicht. Hierbei wird das Eingangssignal x^All(k) ohne Modifikation vervielfältigt und den einzelnen Bearbeitungskanälen mit den unterschiedlichen Bearbeitungseinheiten 42a, 42b, 42c, die durch f₀(x^All(k)), f₁(x^All(k)) und f_N-1(x^All(k)) gekennzeichnet sind, und der Synchronisationseinheit 41 zugeführt. Durch die Synchronisationseinheit 41 wird wiederum eine Synchronisation der Bearbeitungskanäle zu bestimmten Zeitpunkten im Signal mittels Steuersignalen erreicht. Eine anschließende Aufspaltung mit einer Trenneinheit 43a, 43b, 43c in jedem Bearbeitungskanal führt zur Aufspaltung der Ausgangssignale y_i ^All(k) (i=0, 1, ..., N-1) in jeweils N unterschiedliche Teilsignale y _{i_i} (k). In der abschließenden Kombinationseinheit 44 wird aus jedem Bearbeitungskanal jeweils ein Teilsignal ausgewählt und zum Ausgangssignal y^All(k) zusammengesetzt. In dem gezeigten Beispiel werden die Teilsignale y _{0_0} (k), y _{1_1} (k), ..., y_{N-1_N-1} (k) zu dem Ausgangssignal y^All(k) zusammengesetzt.
In 14 ist schematisch die Auswirkung einer Verlängerung um den Faktor 1,5 mit Synchronisation gezeigt. In diesem Fall wird zur Erhaltung des dargestellten Tonwechsels zum Zeitpunkt 1,5 t₁ die Blocklänge des ersten Bandes kurzfristig so angepasst, dass der Tonwechsel ohne Probleme erfolgen kann.
Besonders vorteilhaft ist hierbei eine Synchronisation des Signals an Transienten. Hierbei bezeichnen Transienten Übergangslaute, also Stellen, an denen sich das Signal schnell ändert.
Eine spezielle Realisierungsform des erfindungsgemäßen Verfahrens wird anhand von 15 erläutert. In 15a ist ein Originalsignal im Zeitbereich dargestellt, wobei zum Zeitpunkt t₁ ein Transient im Signal vorhanden ist, der bis zum Zeitpunkt t₂ anhält. In 15b ist ein um den Faktor 2 verlängertes Signal dargestellt. Hierbei wurden die Bearbeitungskanäle derart synchronisiert, dass der Originalsignalabschnitt t₀ bis t₁ auf den verlängerten Signalabschnitt 2 t₀ bis 2 t₁ abgebildet wird. Über die Dauer des Transienten wird nun keinerlei Verlängerung durchgeführt, um den Orignalübergangslaut zu erhalten. Anschließend wird der nächste Signalabschnitt derart verlängert, dass das gesamte Ausgangssignal genau die doppelte Länge des Originalsignals besitzt.
Bei dem erfindungsgemäßen Verfahren erfolgt vorzugsweise in der Trenneinheit 31a bzw. den Trenneinheiten 43a, 43b, 43c eine frequenzmäßige Aufspaltung des Eingangssignals durch geeignete Filter in unterschiedliche Frequenzbereiche. Beispielhaft erfolgt eine Aufteilung in zwei Frequenzbänder durch ein Hochpass- und ein Tiefpassfilter.
Besonders vorteilhaft ist dabei die Verwendung von linearphasigen FIR-Filtern, da mit diesen eine besonders effiziente Zerlegung erfolgen kann, die anhand von 16 genauer erläutert wird. Das Eingangssignal x(k) wird durch ein linearphasiges Tiefpassfilter 51 gefiltert, woraus sich das Ausgangssignal x_TP(k) ergibt. Das linearphasige Tiefpassfilter 51 mit einer ungeraden Anzahl an Koeffizienten besitzt eine konstante Gruppenlaufzeit, die durch eine einfache Verzögerungseinheit (Delay) kompensiert werden kann und muss. Aus diesem Grund wird das Eingangssignal x(k) zusätzlich um diese Zeit mittels einer Verzögerungseinheit 52 verzögert. In einem abschließenden Verfahrensschritt wird von diesem verzögerten Signal x_D(k) das Tiefpassausgangssignal x_TP(k) mittels eines Addierers 53 abgezogen, woraus sich der komplementäre Hochpassanteil x_HP(k) des Signals ergibt.
Eine weitere Ausgestaltung einer erfindungsgemäßen Vorrichtung zur Veränderung der Tonlänge (time scaling) ist in den 17a, 17b gezeigt. 17a zeigt vereinfacht das Blockschaltbild der Vorrichtung, 17b zeigt Beispiele für die entstehenden Signale. Das Eingangssignal x(k) wird in der Trenneinheit 61 mittels eines Tiefpassfilters 61a und eines Hochpassfilters 61b in einen Tiefpass- und einen Hochpassanteil x_TP(k) und x_HP(k) zerlegt. Mit Hilfe eines an sich bekannten Verfahrens oder eines neuen Verfahrens wird der Tiefpasssignal x_TP(k) in der Bearbeitungseinheit 62a zeitlich verändert, so dass sich das Ausgangssignal y_TP(k) ergibt. Der Hochpassanteil x_HP(k) wird, mittels der Synchronisationseinheit 64 synchron zum Tiefpassanteil x_TP(k) durch ein anderes neues oder bekanntes Verfahren oder mit demselben Verfahren, aber unter Verwendung anderer Parameter, in der Bearbeitungseinheit 62b verändert, wobei die Art der Veränderung, z.B. eine zeitlichen Verlängerung um 100%, für beide Anteile gleich bleibt. Es ergibt sich das Ausgangssignal y_HP(k). Eine Addition als Kombinationseinheit 63 führt zum gewünschten Ausgangssignal y(k), das sich durch einen verbesserten Klang gegenüber einer Verwendung der Einzelalgorithmen auszeichnet.
Die Realisierung eines erfindungsgemäßen Verfahrens zur Veränderung der Tonhöhe (pitch shift) ist in 18 gezeigt. In der Trenneinheit 71 wird das Eingangssignal x(k) zerlegt, um dann, mittels der Synchronisationseinheit 74 synchron, aber in unterschiedlicher Weise mittels der Bearbeitungseinheiten 72a, 72b verändert zu werden. Anschließend wird das vollständige Ausgangssignal y(k) mit Hilfe einer Addition als Kombinationseinheit 73 erzeugt.
Eine spezielle Realisierung des erfindungsgemäßen Verfahrens zeigt 19 zur Veränderung der Tonlänge (time scaling). In der Trenneinheit 81 wird das Eingangssignal x(k) in einen Tiefpass- und einen Hochpassanteil x_TP(k) und x_HP(k) zerlegt. Aus dem Tiefpassanteil x_TP(k) wird durch eine geeignete Kombination mehrerer Teilstücke mittels eines TP-Perioden Synthesizers 82a ein neues Tiefpasssignalteil erzeugt. In einer ersten Implementation besteht die geeignete Kombination aus einer Überlagerung von 3 gewichteten Perioden, wobei die Gewichtung durch zwei Zufallsgrößen a, b bestimmt wird, wie in 20 gezeigt ist, das die Funktionsweise des TP-Perioden Synthesizers 82a erläutert.
Ebenso wird aus dem Hochpassanteil x_HP(k) durch ein geeignetes Verfahren mittels eines HP-Perioden Synthesizers 82b ein neues Hochpasssignalteil erzeugt, z.B. durch die zufällige Auswahl einer benachbarten Periode, d.h. durch ein anderes als das in dem TP-Perioden Synthesizer 82a angewendete Verfahren. Durch die zufällige Wahl kann keine eindeutige Korrelation entstehen, die es zu vermeiden gilt.
Die neuen synthetisierten Signalteile werden abhängig vom gewählten Faktor der Veränderung erzeugt und in das Tiefpass- bzw. Hochpasssignal x_TP(k) bzw. x_HP(k) eingefügt, wobei synchronisierte zeitgesteuerte Schalter 83a, 83b zum Umschalten zwischen dem Tiefpass- bzw. Hochpasssignal und dem neuen Tiefpass- bzw. Hochpasssignalteil vorgesehen sind. Die Einfügung selbst geschieht durch das oben beschriebene PSOLA Verfahren in PSOLA Einheiten 84a, 84b. Die anschließende Addition in der Kombinationseinheit 85 führt zum Ausgangssignal y(k), das eine deutlich höhere Natürlichkeit aufweist.
Eine äquivalente Implementierung mit dem besonderen Vorteil einer geringeren Rechenleistung ist möglich, wenn die gemeinsamen Anteile der Berechnung im breitbandigen Eingangssignal durchgeführt werden. Es ist möglich, das Einfügen der synthetisch erzeugten Perioden im Originalsignal vorzunehmen und nur die Erzeugung der synthetischen Perioden im aufgeteilten Signal durchzuführen. Ein Blockschaltbild einer entsprechenden Vorrichtung ist in 21 gezeigt. Diese weist eine Trenneinheit 91, eine Synthetisiereinheit 92 mit einem TP-Perioden Synthesizer 92a und einem HP-Perioden Synthesizer 92b, einen Addierer 93 und eine gesteuerte Schalt- und Einfügeeinheit 94 auf. Das entstehende Ausgangssignal y(k) ist zu dem Signal y(k) aus 19 äquivalent, wenn für die Einzelelemente der Vorrichtung die gleichen Parameter verwendet werden und zur Aufspaltung komplementäre Filterbänke, wie sie in 16 gezeigt sind, verwendet werden.
Eine spezielle Implementierung des erfindungsgemäßen Verfahrens zur Veränderung der Tonhöhe ist in 22 gezeigt. 22a zeigt ein Blockschaltbild einer entsprechenden Vorrichtung; 22b zeigt dabei die Spektren der auftretenden Signale. Das Eingangssignal wird in der Trenneinheit 101 zerlegt. Das Tiefpasssignal x_TP(k) wird durch einen bekannten Ansatz, z.B. PSOLA oder Phase-Vocoder, in der Bearbeitungseinheit 102a verlängert und durch Resampling zur gewünschten Tonhöhe verschoben. Die vorher erwähnten Artefakte der Formantverschiebung treten somit nur für diesen Frequenzbereich auf. Der Hochpassanteil x_HP(k) wird dagegen in der Bearbeitungseinheit 102b mit dem Lent-Algorithmus oder einem anderen formanterhaltenden Algorithmus zur gewünschten Tonhöhe verschoben, wobei die Bearbeitung an sich mittels der Synchronisationseinheit 104 synchronisiert wird. Die Addition der Signale in der Kombinationseinheit 103 führt zum Ausgangssignal y(k), das sich insbesondere bei der Verschiebung der Tonhöhe nach unten durch eine verbesserte Natürlichkeit auszeichnet.
Ein ähnliches Resultat lässt sich auch erzielen, wenn die Reihenfolge der Verarbeitung wie bei dem anhand von 23 erläuterten Verfahren umgedreht wird. 23a zeigt ein Blockschaltbild einer entsprechenden Vorrichtung; 23b zeigt dabei die Spektren der auftretenden Signale. So ist es möglich, das Eingangssignal x(k) zum einen mittels einer ersten Bearbeitungseinheit 111a durch eine Verlängerung und Resampling in die gewünschte neue Tonhöhe zu überführen und zum anderen mit einer zweiten Bearbeitungseinheit 111b synchron dazu (Synchronisationseinheit 114) eine Bearbeitung mit einem formanterhaltenden Algorithmus (z.B. Lent-Algorithmus) durchzuführen. Das erste Signal y_Pit0(k) wird anschließend mit Hilfe einer ersten Trenneinheit 112a zerlegt. Ebenso wird das zweite Signal Y_Pit1(k) mit Hilfe einer zweiten Trenneinheit 112b zerlegt. Abschließend werden unterschiedliche Teilsignale, in diesem Beispiel das Tiefpasssignal y_TP(k) der ersten Trenneinheit 112a und das Hochpasssignal y_HP(k) der zweiten Trenneinheit 112b, in der Kombinationseinheit 113 neu kombiniert.
Eine rechenzeitreduzierte, aber im Ausgangssignal äquivalente Form ist in 24 gezeigt. Hierbei werden die Ausgangssignale der Bearbeitungseinheiten 121a, 121b mit den Algorithmen zur Veränderung der Tonhöhe y_Pit0(k) und y_Pit1(k) einem Tiefpassfilter 122a bzw. einem Hochpassfilter 122b zugeführt. Eine abschließende Addition der gefilterten Signale in der Kombinationseinheit 123 ergibt das Ausgangssignal y(k), das eine deutlich verbesserte Natürlichkeit besitzt.
Insbesondere bei der Nutzung unterschiedlicher Algorithmen kann es vorkommen, dass eine einfache Addition der unterschiedlich bearbeiteten Teilsignale nicht funktioniert, da die unterschiedlichen Algorithmen zum Teil unterschiedliche Blockgrößen erfordern und somit ein zeitlicher Versatz entsteht. Ein weiteres Problem ergibt sich dadurch, dass einige Verfahren Pitch Synchron (PSOLA, Lent) sind, andere aber nicht (Resampling, Phase-Vocoder). Somit können sowohl Phasendifferenzen als auch unterschiedliche Teilsignallängen entstehen, die es auszugleichen gilt. Um trotzdem ein geeignetes Ausgangssignal zu erhalten, ist vorzugsweise in der Kombinationseinheit eine Synchronisationseinheit vorgesehen, die die unterschiedlich bearbeiteten Signale entsprechend ihrer Laufzeit, Länge und Phase verzögert und richtig zusammensetzt.
25 zeigt die verschiedenen Möglichkeiten der bei der Erfindung bevorzugt eingesetzten Frequenzaufteilung mittels der beschriebenen Trenneinheiten. Die einfachste Form der Frequenzaufteilung ist, wie in 25a gezeigt, eine beliebige Zuordnung der Frequenzen zu einem Teilsignal, wobei eine Frequenz auch mehrfach zugeordnet werden darf. Die einzelnen Teilsignale, von denen in 25a für zwei Teilsignale jeweils das Spektrum gezeigt ist, können also über Filter mit einer entsprechenden Übertragungsfunktion gewonnen werden.
Eine zweite Möglichkeit der Frequenzaufteilung, wie sie in 25b gezeigt ist, ist die komplementäre Aufteilung. Bei dieser Art der Aufteilung wird der Frequenzbereich in mehrere nicht überlappende Teilbereiche aufgespalten. Wichtig ist dabei, dass jede Frequenz nur jeweils einem Teilsignal zugeordnet wird, dass also die einzelnen Frequenzbereiche nicht mehrfach zugeordnet werden. Die Erzeugung der Teilsignale, von denen in 25b wiederum für zwei Teilsignale die Spektren gezeigt sind, kann über komplementäre Filter erfolgen.
Eine dritte und bei der vorliegenden Erfindung bevorzugte Form der Frequenzaufteilung ist die komplementäre Bandaufteilung, wie sie in 25c gezeigt ist. Dabei wird der Frequenzbereich durch Tief-, Hoch- und Bandpässe so aufgeteilt, dass jeder Frequenzbereich zusammenhängend ist und nur einem Teilsignal zugeordnet wird. Die Spektren dreier solcher Teilsignale sind in 25c gezeigt.

Claims

Verfahren zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate, dadurch gekennzeichnet, dass das Audiosignal in wenigstens zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal zugeführt wird, dass die zeitliche Dauer und/oder die Tonhöhe der Teilsignale auf unterschiedliche Weise verändert wird, dass die gesonderte Bearbeitung der wenigstens zwei Teilsignale wenigstens zeitweise synchronisiert wird und dass die gesondert bearbeiteten Teilsignale danach zu einem Ausgangssignal zusammengefasst werden.
Verfahren zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate, dadurch gekennzeichnet, dass das Audiosignal wenigstens zwei parallelen Bearbeitungskanälen zugeführt wird, dass die zeitliche Dauer und/oder die Tonhöhe der Audiosignale auf unterschiedliche Weise gesondert verändert wird, dass die gesonderte Bearbeitung des Audiosignals in den wenigstens zwei parallelen Bearbeitungskanälen wenigstens zeitweise synchronisiert wird, dass die gesondert bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale aufgespalten werden und dass danach ein Ausgangssignal durch Kombination jeweils wenigstens eines Teilsignals jedes Bearbeitungskanals gebildet wird.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass Steuersignale des Bearbeitungskanals zur Synchronisation der gesonderten Bearbeitung in einer Synchronisationseinheit verarbeitet werden.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Synchronisation der gesonderten Bearbeitung an Transienten im Audiosignal erfolgt.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Synchronisation derart erfolgt, dass die Transienten nicht verändert werden.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die gesonderte Bearbeitung in den wenigstens zwei parallelen Bearbeitungskanälen mittels desselben Verfahrens mit unterschiedlichen Parametern oder mittels unterschiedlicher Verfahren erfolgt.
Verfahren nach einem der Ansprüche 1, 3, 4 oder 5, dadurch gekennzeichnet, dass die Veränderung der Tonlänge wenigstens eines der Teilsignale in einem Bearbeitungskanal durch Einfügen von neu berechneten Signalanteilen erfolgt, wobei die neu berechneten Signalanteile mittels einer gewichteten Addition wenigstens zweier benachbarter Signalanteile des Teilsignals ermittelt werden.
Verfahren nach einem der Ansprüche 1, 3, 4 oder 5, dadurch gekennzeichnet, dass zur Veränderung der Tonlänge des Audiosignals für wenigstens eines der Teilsignale in einem Bearbeitungskanal neu berechnete Signalanteile mittels einer gewichteten Addition wenigstens zweier benachbarter Signalanteile des Teilsignals ermittelt werden, dass die Teilsignale danach zu einem neue Signalanteile aufweisenden Ausgangssignal zusammengefasst werden und dass die Veränderung der Tonlänge des Audiosignals durch Einfügen von Signalteilen dieses Ausgangssignals in das Audiosignal erfolgt.
Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die zur Berechnung der neuen Signalanteile herangezogenen Signalanteile eines Teilsignals im Abstand der Grundfrequenz verwendet werden.
Verfahren nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass das Einfügen der neu berechneten Signalanteile nach dem PSOLA-Verfahren erfolgt.
Verfahren nach einem der Ansprüche 7 bis 10, dadurch gekennzeichnet, dass die neuen Signalanteile wenigstens eines Teilsignals durch eine zufällige Wahl aus benachbarten Anteilen des Teilsignals bestimmt werden.
Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass zur Veränderung der Tonlänge des Audiosignals in wenigstens einem Bearbeitungskanal neu berechnete Signalanteile des Audiosignals mittels einer gewichteten Addition wenigstens zweier benachbarter Signalanteile des Audiosignals ermittelt werden, dass die derart bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale aufgespalten werden, dass danach ein neue Signalanteile aufweisendes Ausgangssignal durch Kombination jeweils wenigstens eines Teilsignals jedes Bearbeitungskanals gebildet wird, und dass die Veränderung der Tonlänge des Audiosignal durch Einfügen von Signalteilen dieses Ausgangssignals in das Audiosignal erfolgt.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass zur Veränderung der Tonhöhe des Audiosignals in wenigstens einem Bearbeitungskanal ein formanterhaltender Algorithmus zur Veränderung der Tonhöhe des Signals in diesem wenigstens einen Bearbeitungskanal verwendet wird und dass in wenigstens einem anderen Bearbeitungskanal ein formantverändernder Algorithmus zur Veränderung der Tonhöhe des Signals in wenigstens diesem einen Bearbeitungskanal verwendet wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Aufspaltung in Teilsignale durch Frequenzaufteilung erfolgt.
Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Frequenzaufteilung durch Filterung mittels wenigstens eines linearphasigen und/oder rein transversalen Filters erfolgt.
Verfahren nach Anspruch 14 oder 15, dadurch gekennzeichnet, dass die Frequenzaufteilung in nur zwei Frequenzbänder mittels eines einzigen Filters erfolgt, wobei der komplementäre Anteil des gefilterten Signals durch Subtraktion des gefilterten Signals von einer verzögerten Version des ungefilterten Signals gebildet wird.
Verfahren nach Anspruch 14 oder 15, dadurch gekennzeichnet, dass bei der Frequenzaufteilung eine komplementäre Aufteilung der Frequenzanteile derart erfolgt, dass der Frequenzbereich in mehrere nicht überlappendende Frequenzbereiche aufgeteilt wird, derart, dass der Frequenzbereich durch Filterung im Frequenzbereich in mehrere jeweils zusammenhängende Frequenzbereiche, die jeweils nur einem Teilsignal zugeordnet werden, aufgeteilt wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Teilsignale vor der Bildung des Ausgangssignals durch Kombination mittels Verzögerungselementen verzögert werden.
Vorrichtung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate, gekennzeichnet durch eine Trenneinheit zur Aufspaltung des Audiosignals in wenigstens zwei Teilsignale, durch wenigstens zwei parallele Bearbeitungskanäle, denen jeweils ein Teilsignal zugeführt wird, durch jeweils eine Bearbeitungseinheit in jedem Bearbeitungskanal zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe der Teilsignale auf unterschiedliche Weise, durch eine Synchronisationseinheit zur wenigstens zeitweisen Synchronisierung der gesonderten Bearbeitung der wenigstens zwei Teilsignale und durch eine Kombinationseinheit zur anschließenden Zusammenfassung der gesondert bearbeiteten Teilsignale zu einem Ausgangssignal.
Vorrichtung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate, gekennzeichnet durch wenigstens zwei parallele Bearbeitungskanäle, denen jeweils das Audiosignal zugeführt wird, durch jeweils eine Bearbeitungseinheit in jedem Bearbeitungskanal zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe des Audiosignals auf unterschiedliche Weise, durch eine Synchronisationseinheit zur wenigstens zeitweisen Synchronisierung der gesonderten Bearbeitung des Audiosignals in den wenigstens zwei parallelen Bearbeitungskanälen, durch eine Trenneinheit zur Aufspaltung der gesondert bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale und durch eine Kombinationseinheit zur anschließenden Zusammenfassung jeweils wenigstens eines Teilsignals jedes Bearbeitungskanals zu einem Ausgangssignal.
Computerprogramm mit Computerprogrammmitteln zur Veranlassung eines Computers zur Ausführung der Verfahrensschritte des Verfahrens nach Anspruch 1 oder 2, wenn das Computerprogramm auf einem Computer ausgeführt wird.
Computerlesbarer Datenträger, auf dem ein Computerprogramm nach Anspruch 21 gespeichert ist.