-
Die
Erfindung betrifft ein Verfahren und eine Vorrichtung zur Veränderung
der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei
gleichbleibender Abtastrate mit besonderer Natürlichkeit an Transienten. Außerdem betrifft
die Erfindung ein Computerprogramm zur Umsetzung des Verfahrens
und einen Datenträger
mit einem solchen Computerprogramm.
-
Bei
der Verarbeitung von Audiosignalen kann es beispielsweise im Musikproduktionsprozess notwendig
sein, bereits aufgenommene Stimmen und/oder Instrumente zu verändern oder
zu verfremden, ohne eine erneute Aufnahme durchführen zu müssen. Beispiele hierfür können eine
Veränderung des
Tempos eines Musikstückes
oder eine nachträgliche Veränderung
der Tonlage sein. Zusätzlich
werden neue kreative Möglichkeiten
geschaffen, Musik zu gestalten.
-
Bekannte
Verfahren zur zeitlichen Veränderung,
insbesondere zur Verlängerung
von Audiosignalen, und zur Veränderung
der Tonhöhe
von Audiosignalen sind beispielsweise in "Time and Pitch scale modification of
audio signals",
Jean Laroche in M. Kahrs und Karlheinz Brandenburg (Hrsg.), Applications
of Digital Signal Processing to Audio and Acoustics, Kluwer Academic
Press, 1998, Kapitel 7, S. 279-310, beschrieben.
-
Die
bekannten Verfahren zur zeitlichen Veränderung lassen sich in zwei
Grundtechniken einteilen.
-
Zum
einen gibt es Lösungen
im Zeitbereich. Eine Vorraussetzung für diese Algorithmen ist die
Annahme, dass das zu verändernde
Signal monophon ist, also nicht ein Gemisch aus mehreren Instrumenten
darstellt. Beispiele für
derartige Lösungen
sind das Pitch Synchrone Splicing (PSS) und das Pitch Synchrone
Overlap Add (PSOLA) Verfahren. Beim PSS Verfahren basiert die Veränderung
der Signallänge
auf einer zeitlichen Wiederholung von kurzen Abschnitten, wobei
eine Wiederholung im Raster der Grundfrequenz als besonders vorteilhaft
gilt. Beim PSOLA Verfahren wird zusätzlich eine Fensterung vorgesehen,
bevor die neuen Signalabschnitte in das Ausgangssignal eingefügt werden.
Die einzufügenden
Signalabschnitte sind wiederum gefensterte Wiederholungen des Eingangssignals
im Abstand der Grundfrequenz. Zusätzlich ist eine Bestimmung der
Grundfrequenz notwendig, wozu eine Vielzahl bekannter Algorithmen
zur Verfügung
steht.
-
Als
besonderer Nachteil des PSOLA Verfahrens hat sich das Einbringen
von Langzeitkorrelation durch die Wiederholung fester Signalabschnitte
erwiesen. Das Ausgangssignal enthält durch die Wiederholung einen
unnatürlichen
Klang, der insbesondere bei Singstimmen zu einer nicht annehmbaren Qualität führt.
-
Zum
anderen sind Lösungen
im Frequenzbereich bekannt. Sie nutzen das bekannte Fourier-Theorem,
dass sich jedes komplexe Signal als eine Zerlegung von Sinusschwingungen
darstellen lässt.
Mit diesem Verfahren lassen sich auch Gemische aus mehreren Signalen,
z.B. Instrumenten, zeitlich verändern.
-
Bei
den Frequenzbereichsverfahren hat sich der sog. Phase-Vocoder als
besonders vorteilhaft erwiesen. Bei diesem Verfahren werden die
im Frequenzbereich vorliegenden Kurzzeitspektren in ein neues starres
Raster abgebildet, das dem Faktor der zeitlichen Veränderung
entspricht. Beispielsweise werden bei einer Verdoppelung der Tonlänge zwischen
den Kurzzeitbetragsspektren neue geschätzte Spektren eingefügt. Die
Berechnung der neuen Spektren erfolgt mittels geeigneter Interpolationsverfahren.
-
Als
nachteilig bei den Frequenzbereichsverfahren hat sich erwiesen,
dass durch die Interpolation im Frequenzbereich Impulse im Zeitbereich
deutlich gestreckt werden und deshalb impulshafte Signale eine zu
große
Weichheit bekommen.
-
Für die Veränderung
der Tonhöhe
sind bisher zwei grundsätzliche
Verfahren bekannt. Beim ersten Verfahren wird das zu verändernde
Signal um einen bestimmten Faktor verlängert oder verkürzt, um
dann mit einer veränderten
Auslesegeschwindigkeit, bzw. einem sog. Resampling, ein in der Tonhöhe verändertes
Signal zu erhalten. Beispielsweise ist bei einer Veränderung
der Tonhöhe
um eine Oktave (doppelte Frequenz) eine Verlängerung des Signals um den Faktor
zwei notwendig. Wird nun nur jeder zweite Abtastwert ausgelesen
und wurde das Signal vorher zur Vermeidung von Aliasing tiefpassgefiltert,
wird ein Signal mit der doppelten Frequenz gewonnen. Bei Anwendung
des Verfahrens stellt sich jedoch heraus, dass das natürliche Resonanzverhalten
eines Instrumentes (die Formanten) ebenfalls verschoben werden.
Das neue Ausgangssignal hat einen besonders unnatürlichen
Klang. Bei Sprache wird dies durch den sogenannten Mickey-Mouse-Effekt
deutlich.
-
Das
zweite Verfahren zur Veränderung
der Tonhöhe
vermeidet dieses Problem, indem ein Verfahren gewählt wird,
dass dem PSOLA Verfahren entlehnt ist, nach dem Erfinder als Lent-Algorithmus bezeichnet
wird und in „An
efficent method for pitch shifting digitally sampled sounds", K. Lent, Computer Music
Journal, 13(4):65-71, 1989 beschrieben ist. Dabei wird zur Bildung
des neuen Ausgangssignals eine Überlappung
der Teilabschnitte im Raster der gewünschten neuen Grundfrequenz
durchgeführt. Das
Formantverhalten bleibt konstant, aber die Grundfrequenz kann so
verändert
werden. Bei natürlichen
Signalen, insbesondere bei einer Singstimme, verändern sich aber die Formanten
leicht. Aus diesem Grund hat sich die Kombination aus dem Lent-Algorithmus
mit einem anschließenden Resampling,
das nur mit einer sehr geringen Verschiebung arbeitet, als besonders
günstig
herausgestellt.
-
Allen
bekannten Verfahren ist gemeinsam, dass nur eine Rechenvorschrift
für die
Tonhöhentransformation
nach oben und unten verwendet wird und dass das Eingangssignal breitbandig
und als ganzes verändert
wird. Außerdem
treten bei allen bekannten Verfahren mehr oder weniger unerwünschte Seiteneffekte
auf, die es zu minimieren gilt. Entscheidend für die Güte eines Verfahrens ist immer
die subjektiv wahrgenommene Qualität des Ausgangssignals nach
der Veränderung.
-
US 5641926 A offenbart
ein Verfahren und eine Vorrichtung zur Veränderung der Tonhöhe von Audiosignalen.
Um aus einem Eingangston mittels einer Harmonie-Tabelle einen Chorklang
zu erzeugen, werden dort für
den Eingangston die entsprechenden Harmonischen herausgesucht und
jeweils einem Harmonie-Generator zugeführt, worin für den Eingangston
entsprechend der ermittelten Harmonischen ein Ton des gewünschten
Chorklangs erzeugt wird. In jedem Harmonie-Generator wird also auf
gleiche Weise der gewünschte
Ton des Chorklangs aus dem Eingangston und einer Information bezüglich des
zu erzeugenden Tons erzeugt. Am Ausgang werden diese Töne wieder
zusammengefügt
zu dem gewünschten
Chorklang.
-
US 5952596 A beschreibt
ein Verfahren zur Veränderung
der Geschwindigkeit und der Tonhöhe von
Audiosignalen mittels digitaler Signalverarbeitung. Aus der US 2001/0023399
A1 sind eine Audiosignalverarbeitungsvorrichtung und ein entsprechendes
Verfahren bekannt, mit denen ein im Zeitbereich komprimiertes oder
expandiertes Audiosignal wiedergegeben werden kann, ohne dass die
Tonhöhe verändert wird.
-
In
der
DE 102 10 978
C1 ist ein Verfahren beschrieben, gemäß dem ein Audiosignal in wenigstens zwei
Teilsignale aufgespalten und jeweils einem Bearbeitungskanal zugeführt wird.
In dem Bearbeitungskanal wird die zeitliche Dauer und/oder die Tonhöhe der Teilsignale
auf unterschiedliche Weise gesondert verändert und die gesondert bearbeiteten Teilsignale
werden danach zu einem Ausgangssignal zusammengefasst. Durch diese
Bearbeitung ließ sich
die Qualität
des Ausgangssignals bereits steigern.
-
Ein
weiteres in der
DE
102 10 978 C1 beschriebenes Verfahren sieht vor, dass das
Audiosignal wenigstens zwei parallelen Bearbeitungskanälen zugeführt wird,
dass die zeitliche Dauer und/oder die Tonhöhe der Audiosignale auf unterschiedliche
Weise gesondert verändert
wird, dass die gesondert bearbeiteten Audiosignale jeweils in wenigstens
zwei Teilsignale aufgespalten werden und dass danach ein Ausgangssignal
durch Kombination jeweils wenigstens eines Teilsignals jedes Bearbeitungskanals gebildet
wird.
-
Diesen
Verfahren ist gemeinsam, dass die Bearbeitungskanäle unabhängig voneinander
arbeiten und somit keinerlei Informationen über die Art der Bearbeitung
(z.B. Blocklänge
des Verfahrens) bekannt sind. Dies kann zu einem Qualitätsverlust
an Übergangslauten
(Transienten) führen.
-
Der
Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine
Vorrichtung zur Veränderung
der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals
anzugeben, mit denen sich eine weiter verbesserte Klangqualität, insbesondere
an Transienten, erreichen lässt.
-
Diese
Aufgabe wird erfindungsgemäß durch ein
Verfahren nach Anspruch 1 dadurch gelöst, dass das Audiosignal in
wenigstens zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal
zugeführt
wird, dass die zeitliche Dauer und/oder die Tonhöhe der Teilsignale auf unterschiedliche
Weise verändert
wird, dass die gesonderte Bearbeitung der wenigstens zwei Teilsignale
wenigstens zeitweise synchronisiert wird und dass die gesondert
bearbeiteten Teilsignale danach zu einem Ausgangssignal zusammengefasst
werden.
-
Diese
Aufgabe wird erfindungsgemäß auch durch
ein Verfahren nach Anspruch 2 dadurch gelöst, dass die zeitliche Dauer
und/oder die Tonhöhe
der Audiosignale auf unterschiedliche Weise gesondert verändert wird,
dass die gesonderte Bearbeitung des Audiosignals in den wenigstens
zwei parallelen Bearbeitungskanälen
wenigstens zeitweise synchronisiert wird, dass die gesondert bearbeiteten
Audiosignale jeweils in wenigstens zwei Teilsignale aufgespalten werden
und dass danach ein Ausgangssignal durch Kombination jeweils wenigstens
eines Teilsignals jedes Bearbeitungskanals gebildet wird.
-
Entsprechende
erfindungsgemäße Vorrichtungen
sind in den Ansprüchen
19 und 20 angegeben. Ein Computerprogramm zur Umsetzung der erfindungsgemäßen Verfahren
ist in Anspruch 21 angegeben. Ein Datenträger mit einem solchen Computerprogramm
ist in Anspruch 22 angegeben. Vorteilhafte Ausgestaltungen der Erfindung
sind in den Unteransprüchen
angegeben.
-
Erfindungsgemäß erfolgt
also die Bearbeitung des Audiosignals in mehreren Bearbeitungskanälen. Jedoch
wird die Bearbeitung der Teilsignale in den wenigstens zwei Bearbeitungskanälen durch eine
Synchronisation gekoppelt. Die Synchronisation stellt sicher, dass
die Bearbeitungskanäle
zu bestimmten Zeitpunkten möglichst
exakt denselben Signalabschnitt bearbeiten.
-
Durch
die Erfindung kann die subjektiv wahrgenommene Qualität des Ausgangssignals
signifikant verbessert werden. Der entscheidende Vorteil gegenüber den
bekannten Verfahren ist, dass die einzelnen Bearbeitungskanäle nicht
mehr völlig
unabhängig
voneinander arbeiten, sondern wenigstens zeitweise synchronisiert
werden. Es kann also während
der Verarbeitung Einfluss auf die Parameter des Verfahrens genommen
werden, so dass z.B. eine Verschmierung der Transienten verhindert
werden kann.
-
Gemäß einer
bevorzugten Ausgestaltung der Erfindung erfolgt die Synchronisation
der Bearbeitungskanäle
durch eine Synchronisationseinheit, welche Steuersignale für die Synchronisation
verarbeitet. Diese beinhalten Signale des Bearbeitungskanal, beispielsweise
den tatsächlichen
Faktor der zeitlichen Verlängerung
des Audiosignal (Timestretchfaktor), die momentane Blocklänge, den
momentanen Verarbeitungsstatus (z.B. Zeitpunkt im Originalsignal),
und Signale zur Verwaltung, beispielsweise den angestrebten Faktor
der zeitlichen Verlängerung des
Audiosignal (Timestretchfaktor) oder den Synchronisationszeitpunkt,
der vom Bearbeitungskanal eingehalten werden muss.
-
Weitere
bevorzugte Ausgestaltungen der Synchronisation sind in den Ansprüchen 4 und
5 angegeben. Bevorzugt erfolgt demnach die Synchronisation der gesonderten
Bearbeitung an Transienten im Audiosignal, wobei vorzugsweise die
Transienten nicht verändert
werden. Grundsätzlich
ist die Synchronisation aber zu jedem beliebigen Zeitpunkt denkbar,
z.B. zur Abstimmung mit einem zum Audiosignal gehörenden Videobild.
Des weiteren kann beispielsweise durch Beeinflussung der Bearbeitungsparameter
des jeweiligen Algorithmus (z.B. der Blocklänge oder des Timestretchfaktors)
erreicht werden, dass (nur) zu bestimmten Zeitpunkten synchronisiert
wird.
-
Gemäß einer
bevorzugten Ausgestaltung der Erfindung erfolgt die gesonderte Bearbeitung
in den wenigstens zwei parallelen Bearbeitungskanälen mittels
desselben Verfahrens mit unterschiedlichen Parametern. Alternativ
können
auch völlig
unterschiedliche Verfahren zum Einsatz kommen.
-
Bevorzugte
Ausgestaltungen des erfindungsgemäßen Verfahrens zur Veränderung
der Tonlänge
sind in den Ansprüchen
7 bis 12 angegeben. Eine bevorzugte Ausgestaltung des erfindungsgemäßen Verfahrens
zur Veränderung
der Tonhöhe eines
Audiosignals ist in Anspruch 13 angegeben.
-
Insbesondere
hat sich eine Aufspaltung des Audiosignals durch Frequenzaufteilung
in einzelne Frequenzbänder
als vorteilhaft erwiesen. Zur Aufteilung kommen dabei bevorzugt
linearphasige und/oder rein transversale Filter zum Einsatz. Grundsätzlich ist
jedoch auch eine völlig
andere Aufspaltung des Audiosignals, z.B. eine zeitliche Aufspaltung,
in einzelne Teilsignale denkbar.
-
Für die bevorzugte
Frequenzaufteilung gibt es grundsätzlich verschiedene Möglichkeiten.
So ist es denkbar, die Frequenzaufteilung auf mehrere Teilsignale
durch beliebige Zuordnung der Frequenzen zu den einzelnen Teilsignalen
vorzunehmen, wobei auch die Möglichkeit
umfasst sein soll, dass eines der Teilsignale dem Originalsignal
entspricht.. Darüber hinaus
kann die Frequenzaufteilung auch komplementär erfolgen, so dass der Frequenzbereich
in mehrere, nicht überlappende
Teilbereich aufgespalten wird. Bevorzugt ist die komplementäre Bandaufteilung,
bei der der Frequenzbereich in einzelne jeweils zusammenhängende Frequenzbereiche
unterteilt wird, die jeweils einem Teilsignal zugeordnet werden.
-
Die
Erfindung soll nachfolgend anhand der in den Zeichnungen gezeigten
Ausführungsbeispiele näher erläutert werden.
Es zeigen:
-
1 ein
Beispiel zum Verändern
der Länge eines
Audiosignals durch das sog. Pitch Synchrone Splicing Verfahren,
-
2 ein
Beispiel zum Verändern
der Länge eines
Audiosignals durch das sog. Pitch Synchrone Overlap-Add (PSOLA)
Verfahren,
-
3 die
schematische Wirkungsweise des Phase-Vocoders zur Veränderung
der Länge
eines Audiosignals,
-
4 die
Veränderung
eines Impulses durch den Phase-Vocoder,
-
5 schematisch
die Wirkungsweise des Resamplings zur Veränderung der Tonhöhe,
-
6 schematisch
die Probleme bei Veränderung
der Tonhöhe
durch ein Resampling-Verfahren,
-
7 schematisch
die Wirkungsweise des Lent-Algorithmus zum Verändern der Tonhöhe,
-
8 schematisch
das Formantverhalten des Lent-Algorithmus bei einer Tonhöhenveränderung,
-
9 ein
Blockschaltbild einer ersten Ausführungsform eines in der
DE 102 10 978 C1 beschriebenen
Verfahrens,
-
10 ein
Blockschaltbild einer zweiten Ausführungsform eines in der
DE 102 10 978 C1 beschriebenen
Verfahrens,
-
11 schematisch
die Auswirkung der Bearbeitung eines Signals ohne Synchronisation
der Bearbeitungskanäle.
-
12 ein
Blockschaltbild einer ersten allgemeinen Ausführungsform des erfindungsgemäßen Verfahrens,
-
13 ein
Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens,
-
14 schematisch
die Auswirkung der Synchronisation durch Anpassung der Blocklänge,
-
15 schematisch
die Wirkungsweise der Erhaltung der Transienten bei der Synchronisation.
-
16 eine
spezielle Form einer komplementären
Filterbank zur effizienten Aufteilung eines Signals in zwei Bänder durch
Nutzung linearphasiger FIR-Filter,
-
17 ein Blockschaltbild einer ersten Ausführungsform
des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonlänge,
-
18 ein
Blockschaltbild einer ersten Ausführungsform des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonhöhe,
-
19 ein
Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens
zur Veränderung
der Tonlänge,
-
20 einen
Tiefpass-Perioden-Synthesizer,
-
21 ein
Blockschaltbild einer dritten Ausführungsform des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonlänge,
-
22 ein Blockschaltbild einer zweiten Ausführungsform
des erfindungsgemäßen Verfahrens
zur Veränderung
der Tonhöhe,
-
23 ein Blockschaltbild einer dritten Ausführungsform
des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonhöhe,
-
24 ein
Blockschaltbild einer vierten Ausführungsform des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonhöhe
und
-
25 verschiedene
Möglichkeiten
der Frequenzaufteilung von Audiosignalen.
-
Zur
Erläuterung
der eingangs genannten Zeitbereichsverfahren zur Veränderung
der Tonlänge von
Audiosignale sind das Pitch Synchrone Splicing (PSS) und das Pitch
Synchrone Overlap Add (PSOLA) Verfahren in den 1 und 2 gezeigt.
Beim PSS Zeitbereichsverfahren (1) basiert
die Veränderung
der Signallänge
auf einer zeitlichen Wiederholung von kurzen Abschnitten, wobei
eine Wiederholung im Raster der Grundfrequenz (Pitch-Abstand) als
besonders vorteilhaft gilt. 1a zeigt
ein originales Audiosignal aus dem zur zeitlichen Verlängerung
kurze Signalabschnitte als Wiederholungen hinter den originalen
Signalabschnitten eingefügt werden,
um eine Verlängerung
der zeitlichen Dauer des Audiosignals um den Faktor 2 zu erreichen. 1b zeigt
ein solches zeitlich verlängertes
Audiosignal.
-
Für das in 2 gezeigte
PSOLA-Verfahren wird zusätzlich
eine Fensterung mittels Fensterfunktionen (2a)
vorgesehen, bevor die neuen Signalabschnitte in das Ausgangssignal
eingefügt
werden. Die einzufügenden
Signalabschnitte sind wiederum gefensterte Wiederholungen des Eingangssignals
im Abstand der Grundfrequenz. Zusätzlich ist eine Bestimmung
der Grundfrequenz notwendig, wobei hierzu eine Vielzahl bekannter
Algorithmen zur Verfügung
steht. 2b zeigt das durch Einfügen der
gefensterten Wiederholung zeitlich verlängerte Audiosignal.
-
Die
Funktionsweise eines Phase-Vocoders zur Veränderung der Tonlänge mittels
eines Frequenzbereichsverfahren ist in 3 erläutert. Bei diesem
Verfahren werden die im Frequenzbereich vorliegenden Kurzzeitspektren – gezeigt
sind in 3a und 3b Frequenzspektren
zu unterschiedlichen Abtastzeitpunkten k – in ein neues starres Raster
abgebildet, das dem Faktor der zeitlichen Veränderung entspricht. Beispielsweise
werden bei einer Verdoppelung der Tonlänge zwischen den Kurzzeitbetragsspektren
neue geschätzte
Spektren eingefügt.
Die Berechnung der neuen Spektren erfolgt mittels geeigneter Interpolationsverfahren.
In den 3c und 3e sind
die in den 3a und 3b gezeigten
Spektren nochmals gezeigt, zwischen denen ein neues, aus diesen
Spektren interpoliertes Spektrum (3d)
für einen
zwischen den Abtastzeitpunkten (k=1 und k=2) der originalen Spektren
liegenden Abtastzeitpunkt (k=1.5) eingefügt wird, woraus sich ein neues
Abtastzeitraster m=1, 2, 3 ergibt.
-
Als
nachteilig bei dem Phase-Vocoder hat sich erwiesen, dass durch die
Interpolation im Frequenzbereich Impulse im Zeitbereich deutlich
gestreckt werden und deshalb impulshafte Signale eine zu große Weichheit
bekommen. Beispielsweise wird dadurch ein in 4a gezeigtes
impulshaftes Signal in ein gestrecktes in 4b gezeigtes
Signal umgewandelt.
-
Das
Resampling-Verfahren zur Veränderung der
Tonhöhe
ist in 5 näher
erläutert.
Dabei wird das zu verändernde
Originalsignal (5a) um einen bestimmten
Faktor verlängert
(5b) oder verkürzt, um dann mit einer veränderten
Auslesegeschwindigkeit, bzw. dem sog. Resampling, ein in der Tonhöhe verändertes
Signal (5c) zu erhalten. Beispielsweise
ist bei einer Veränderung
der Tonhöhe
um eine Oktave (doppelte Frequenz) eine Verlängerung des Signals um den
Faktor zwei notwendig. Wird nun nur jeder zweite Abtastwert ausgelesen
und wurde das Signal vorher zur Vermeidung von Aliasing tiefpassgefiltert,
wird ein Signal mit der doppelten Frequenz gewonnen. Zur Veranschaulichung
der Nachteile dieses Verfahrens ist in 6 das Formantverhalten
beim Resampling verdeutlicht. Bei Anwendung des Verfahrens auf ein
Originalsignal, dessen Spektrum beispielhaft in 6a gezeigt
wird, stellt sich heraus, dass das natürliche Resonanzverhalten eines
Instrumentes – die
Formanten – ebenfalls
verschoben werden. Das neue Ausgangssignal (6b)
hat einen besonders unnatürlichen
Klang. Bei Sprache wird dies durch den sog. Mickey-Mouse Effekt
deutlich.
-
Der
in 7 erläuterte
Lent-Algorithmus zur Veränderung
der Tonhöhe
vermeidet dieses Problem. Dabei wird zur Bildung des neuen Ausgangssignals
die Überlappung
der Teilabschnitte im Raster der gewünschten neuen Grundfrequenz
(Pitch-Abstand) durchgeführt. 7a zeigt ein Originalsignal. 7b zeigt ein neues Signal mit verringerter
Tonhöhe,
das durch Einfügen
von Nullen zwischen Teilabschnitte des Originalsignals gebildet
wird, bei dem also die Grundfrequenz verringert wird. 7d zeigt ein neues Signal mit gesteigerter
Tonhöhe,
das durch Überlappung
der Perioden des Originalsignals wie in 7c gezeigt
gebildet wird, bei dem also die Grundfrequenz erhöht wird.
-
Das
Formantverhalten bleibt bei diesem Verfahren konstant, aber die
Grundfrequenz kann so verändert
werden, wie in 8 gezeigt ist. In 8a ist ein Spektrum eines Originalsignals
(7a) vor Anwendung des Lent-Algorithmus gezeigt;
in 8b ist ein Spektrum eines neuen
Signals mit verringerter Tonhöhe
(7b) nach Anwendung des Lent-Algorithmus
gezeigt. Bei natürlichen
Signalen, insbesondere bei einer Singstimme, verändern sich aber die Formanten
leicht. Aus diesem Grund hat sich die Kombination aus dem Lent-Algorithmus
mit einem anschließenden
Resampling, das nur mit einer sehr geringen Verschiebung arbeitet,
als besonders günstig
herausgestellt.
-
Das
in der
DE 102 10 978
C1 beschriebene Verfahren soll anhand des in
9 gezeigten
Blockschaltbildes näher
erläutert
werden. Das Verfahren basiert auf einer Aufspaltung des Eingangssignals x
All(k) mittels einer Trenneinheit
11.
Am Ausgang der Trenneinheit
11 entstehen so zwei oder mehr
Teilsignale, die im folgenden mit x
0(k)
für ein
erstes, x
1(k) für ein zweites und x
N-1(k) für
ein N-tes Teilsignal bezeichnet werden. Jedes dieser Teilsignale
wird nun einem gesonderten Bearbeitungskanal mit jeweils einer gesonderten
Bearbeitungseinheit
12a,
12b,
12c zugeführt, in
denen die einzelnen Teilsignale auf unterschiedliche Weise bearbeitet
werden. Zur Beschreibung der unterschiedlichen Bearbeitung wird als
allgemeines Symbol f(x
0(k)) eingeführt; somit
sind die unterschiedlichen Bearbeitungsarten durch f
0(x
0(k)), f
1(x
1(k)) und f
N-1(x
N-1(k)) bezeichnet. Die Unterschiede in der
Bearbeitung können
dabei durch die Wahl unterschiedlicher Parameter eines bestimmten Verfahrens,
das in allen Bearbeitungseinheiten
12a,
12b,
12c angewendet
wird, oder durch unterschiedliche Verfahren erreicht werden. In
einer abschließenden
Kombinationseinheit
13 werden die unterschiedlich bearbeiteten
Teilsignale y
0(k), y
1(k),
..., y
N-1(k) wieder zu einem Ausgangssignal
y
All(k) zusammengesetzt.
-
Eine
weitere Möglichkeit,
das in der
DE 102 10
978 C1 beschriebene Verfahren zu realisieren, ist bei der
in
10 als Blockschaltbild gezeigten Vorrichtung verwirklicht.
Hierbei wird das Eingangssignal x
All(k)
ohne Modifikation vervielfältigt
und den einzelnen Bearbeitungskanälen mit den unterschiedlichen Bearbeitungseinheiten
21a,
21b,
21c,
die durch f
0(x
All(k)),
f
1(x
All(k)) und
f
N-1(x
All(k)) gekennzeichnet sind,
zugeführt.
Eine anschließende
Aufspaltung mit einer Trenneinheit
22a,
22b,
22c in
jedem Bearbeitungskanal führt
zur Aufspaltung der Ausgangssignale y
i All(k) (i=0, 1,..., N-1) in jeweils N unterschiedliche Teilsignale
y
i_i (k). In der abschließenden Kombinationseinheit
23 wird
aus jedem Bearbeitungskanal jeweils ein Teilsignal ausgewählt und
zum Ausgangssignal y
All(k) zusammengesetzt.
In dem gezeigten Beispiel werden die Teilsignale y
0_0 (k),
y
1_1 (k), ..., y
N-1_N-1 (k)
zu dem Ausgangssignal y
All(k) zusammengesetzt.
-
In
11 ist
die Wirkungsweise des in der
DE 102 10 978 C1 beschriebenen Verfahrens
im Frequenzbereich dargestellt. Dabei wird das Originalsignal (
11a), zunächst in 2 Frequenzbänder (Teilsignale)
aufgeteilt. Das Originalsignal besteht hierbei aus einer Folge von
2 Tönen,
wobei der Tonwechsel zum Zeitpunkt t
1 erfolgt.
Die beiden Frequenzbänder werden
um einen Faktor 1,5 getrennt voneinander mit unterschiedlichen Verfahren
verlängert
(
11b ). Wie der
11b zu
entnehmen ist, kommt es durch die unterschiedlichen Blocklängen, die
zur Verlängerung
der Teilsignale mit unterschiedlichen Verfahren verwendet wurden,
zu einer Überlagerung
der beiden im Originalsignal vorhandenen Töne zum Zeitpunkt 1,5 t
1. Daher hat es sich als günstig herausgestellt,
eine solche Überlagerung
durch die Synchronisation der Bearbeitungsverfahren an markanten
Stellen im Signal zu vermeiden.
-
Das
erfindungsgemäße Verfahren
soll anhand des in
12 gezeigten Blockschaltbildes
der erfindungsgemäßen Vorrichtung
näher erläutert werden.
Das Verfahren basiert, wie auch das erste in der
DE 02 10 978 C1 beschriebene
Verfahren, auf einer Aufspaltung des Eingangssignals x
All(k)
mittels einer Trenneinheit
31. Am Ausgang der Trenneinheit
31 entstehen
so zwei oder mehr Teilsignale, die im folgenden mit x
0(k)
für ein
erstes, x
1(k) für ein zweites und x
N-1(k) für
ein N-tes Teilsignal bezeichnet werden. Jedes dieser Teilsignale
wird nun einem gesonderten Bearbeitungskanal mit jeweils einer gesonderten
Bearbeitungseinheit
33a,
33b,
33c zugeführt, in
denen die einzelnen Teilsignale auf unterschiedliche Weise bearbeitet
werden. Zur Beschreibung der unterschiedlichen Bearbeitung wird
wiederum das Symbol f(x
0(k)) genutzt; somit
sind die unterschiedlichen Bearbeitungsarten durch f
0(x
0(k)), f
1(x
1(k)) und f
N-1(x
N-1(k)) bezeichnet. Die Unterschiede in der
Bearbeitung können
dabei durch die Wahl unterschiedlicher Parameter eines bestimmten
Verfahrens, das in allen Bearbeitungseinheiten
33a,
33b,
33c angewendet
wird, oder durch unterschiedliche Verfahren erreicht werden. Außerdem werden
die Teilsignale x
0(k), x
1(k)
bis x
N-1(k) einer Synchronisationseinheit
32 zugeführt. Durch
diese Synchronisationseinheit
32 wird die Bearbeitung der
einzelnen Teilsignale überwacht
und durch geeignete Steuersignale eine Synchronisation der Bearbeitungskanäle zu bestimmten
Zeitpunkten im Signal erreicht. In einer abschließenden Kombinationseinheit
34 werden
die unterschiedlich bearbeiteten Teilsignale y
0(k),
y
1(k), ..., y
N-1(k)
wieder zu einem Ausgangssignal y
All(k) zusammengesetzt.
-
Eine
weitere Möglichkeit,
das erfindungsgemäße Verfahren
zu realisieren, ist bei der in 13 als
Blockschaltbild gezeigten Vorrichtung verwirklicht. Hierbei wird
das Eingangssignal xAll(k) ohne Modifikation
vervielfältigt
und den einzelnen Bearbeitungskanälen mit den unterschiedlichen
Bearbeitungseinheiten 42a, 42b, 42c,
die durch f0(xAll(k)), f1(xAll(k)) und fN-1(xAll(k)) gekennzeichnet
sind, und der Synchronisationseinheit 41 zugeführt. Durch
die Synchronisationseinheit 41 wird wiederum eine Synchronisation
der Bearbeitungskanäle
zu bestimmten Zeitpunkten im Signal mittels Steuersignalen erreicht. Eine
anschließende
Aufspaltung mit einer Trenneinheit 43a, 43b, 43c in
jedem Bearbeitungskanal führt zur
Aufspaltung der Ausgangssignale yi All(k) (i=0, 1, ..., N-1) in jeweils N unterschiedliche
Teilsignale y i_i (k). In der abschließenden Kombinationseinheit 44 wird
aus jedem Bearbeitungskanal jeweils ein Teilsignal ausgewählt und
zum Ausgangssignal yAll(k) zusammengesetzt.
In dem gezeigten Beispiel werden die Teilsignale y 0_0 (k),
y 1_1 (k), ..., y N-1_N-1 (k)
zu dem Ausgangssignal yAll(k) zusammengesetzt.
-
In 14 ist
schematisch die Auswirkung einer Verlängerung um den Faktor 1,5 mit
Synchronisation gezeigt. In diesem Fall wird zur Erhaltung des dargestellten
Tonwechsels zum Zeitpunkt 1,5 t1 die Blocklänge des
ersten Bandes kurzfristig so angepasst, dass der Tonwechsel ohne
Probleme erfolgen kann.
-
Besonders
vorteilhaft ist hierbei eine Synchronisation des Signals an Transienten.
Hierbei bezeichnen Transienten Übergangslaute,
also Stellen, an denen sich das Signal schnell ändert.
-
Eine
spezielle Realisierungsform des erfindungsgemäßen Verfahrens wird anhand
von 15 erläutert.
In 15a ist ein Originalsignal im Zeitbereich
dargestellt, wobei zum Zeitpunkt t1 ein
Transient im Signal vorhanden ist, der bis zum Zeitpunkt t2 anhält.
In 15b ist ein um den Faktor 2 verlängertes Signal
dargestellt. Hierbei wurden die Bearbeitungskanäle derart synchronisiert, dass
der Originalsignalabschnitt t0 bis t1 auf den verlängerten Signalabschnitt 2 t0 bis 2 t1 abgebildet
wird. Über
die Dauer des Transienten wird nun keinerlei Verlängerung durchgeführt, um
den Orignalübergangslaut
zu erhalten. Anschließend
wird der nächste
Signalabschnitt derart verlängert,
dass das gesamte Ausgangssignal genau die doppelte Länge des
Originalsignals besitzt.
-
Bei
dem erfindungsgemäßen Verfahren
erfolgt vorzugsweise in der Trenneinheit 31a bzw. den Trenneinheiten 43a, 43b, 43c eine
frequenzmäßige Aufspaltung
des Eingangssignals durch geeignete Filter in unterschiedliche Frequenzbereiche.
Beispielhaft erfolgt eine Aufteilung in zwei Frequenzbänder durch
ein Hochpass- und ein Tiefpassfilter.
-
Besonders
vorteilhaft ist dabei die Verwendung von linearphasigen FIR-Filtern, da mit diesen eine
besonders effiziente Zerlegung erfolgen kann, die anhand von 16 genauer
erläutert
wird. Das Eingangssignal x(k) wird durch ein linearphasiges Tiefpassfilter 51 gefiltert,
woraus sich das Ausgangssignal xTP(k) ergibt.
Das linearphasige Tiefpassfilter 51 mit einer ungeraden
Anzahl an Koeffizienten besitzt eine konstante Gruppenlaufzeit,
die durch eine einfache Verzögerungseinheit
(Delay) kompensiert werden kann und muss. Aus diesem Grund wird
das Eingangssignal x(k) zusätzlich
um diese Zeit mittels einer Verzögerungseinheit 52 verzögert. In
einem abschließenden
Verfahrensschritt wird von diesem verzögerten Signal xD(k)
das Tiefpassausgangssignal xTP(k) mittels
eines Addierers 53 abgezogen, woraus sich der komplementäre Hochpassanteil
xHP(k) des Signals ergibt.
-
Eine
weitere Ausgestaltung einer erfindungsgemäßen Vorrichtung zur Veränderung
der Tonlänge (time
scaling) ist in den 17a, 17b gezeigt. 17a zeigt vereinfacht das Blockschaltbild der Vorrichtung, 17b zeigt Beispiele für die entstehenden Signale.
Das Eingangssignal x(k) wird in der Trenneinheit 61 mittels
eines Tiefpassfilters 61a und eines Hochpassfilters 61b in
einen Tiefpass- und einen Hochpassanteil xTP(k)
und xHP(k) zerlegt. Mit Hilfe eines an sich
bekannten Verfahrens oder eines neuen Verfahrens wird der Tiefpasssignal
xTP(k) in der Bearbeitungseinheit 62a zeitlich
verändert,
so dass sich das Ausgangssignal yTP(k) ergibt.
Der Hochpassanteil xHP(k) wird, mittels
der Synchronisationseinheit 64 synchron zum Tiefpassanteil
xTP(k) durch ein anderes neues oder bekanntes
Verfahren oder mit demselben Verfahren, aber unter Verwendung anderer
Parameter, in der Bearbeitungseinheit 62b verändert, wobei
die Art der Veränderung,
z.B. eine zeitlichen Verlängerung
um 100%, für
beide Anteile gleich bleibt. Es ergibt sich das Ausgangssignal yHP(k). Eine Addition als Kombinationseinheit 63 führt zum
gewünschten
Ausgangssignal y(k), das sich durch einen verbesserten Klang gegenüber einer
Verwendung der Einzelalgorithmen auszeichnet.
-
Die
Realisierung eines erfindungsgemäßen Verfahrens
zur Veränderung
der Tonhöhe
(pitch shift) ist in 18 gezeigt. In der Trenneinheit 71 wird
das Eingangssignal x(k) zerlegt, um dann, mittels der Synchronisationseinheit 74 synchron,
aber in unterschiedlicher Weise mittels der Bearbeitungseinheiten 72a, 72b verändert zu
werden. Anschließend
wird das vollständige
Ausgangssignal y(k) mit Hilfe einer Addition als Kombinationseinheit 73 erzeugt.
-
Eine
spezielle Realisierung des erfindungsgemäßen Verfahrens zeigt 19 zur
Veränderung der
Tonlänge
(time scaling). In der Trenneinheit 81 wird das Eingangssignal
x(k) in einen Tiefpass- und einen Hochpassanteil xTP(k)
und xHP(k) zerlegt. Aus dem Tiefpassanteil
xTP(k) wird durch eine geeignete Kombination
mehrerer Teilstücke
mittels eines TP-Perioden Synthesizers 82a ein neues Tiefpasssignalteil
erzeugt. In einer ersten Implementation besteht die geeignete Kombination
aus einer Überlagerung
von 3 gewichteten Perioden, wobei die Gewichtung durch zwei Zufallsgrößen a, b
bestimmt wird, wie in 20 gezeigt ist, das die Funktionsweise
des TP-Perioden Synthesizers 82a erläutert.
-
Ebenso
wird aus dem Hochpassanteil xHP(k) durch
ein geeignetes Verfahren mittels eines HP-Perioden Synthesizers 82b ein
neues Hochpasssignalteil erzeugt, z.B. durch die zufällige Auswahl
einer benachbarten Periode, d.h. durch ein anderes als das in dem
TP-Perioden Synthesizer 82a angewendete Verfahren. Durch
die zufällige
Wahl kann keine eindeutige Korrelation entstehen, die es zu vermeiden
gilt.
-
Die
neuen synthetisierten Signalteile werden abhängig vom gewählten Faktor
der Veränderung
erzeugt und in das Tiefpass- bzw. Hochpasssignal xTP(k)
bzw. xHP(k) eingefügt, wobei synchronisierte zeitgesteuerte
Schalter 83a, 83b zum Umschalten zwischen dem
Tiefpass- bzw. Hochpasssignal und dem neuen Tiefpass- bzw. Hochpasssignalteil
vorgesehen sind. Die Einfügung
selbst geschieht durch das oben beschriebene PSOLA Verfahren in
PSOLA Einheiten 84a, 84b. Die anschließende Addition
in der Kombinationseinheit 85 führt zum Ausgangssignal y(k),
das eine deutlich höhere
Natürlichkeit
aufweist.
-
Eine äquivalente
Implementierung mit dem besonderen Vorteil einer geringeren Rechenleistung ist
möglich,
wenn die gemeinsamen Anteile der Berechnung im breitbandigen Eingangssignal
durchgeführt
werden. Es ist möglich,
das Einfügen
der synthetisch erzeugten Perioden im Originalsignal vorzunehmen
und nur die Erzeugung der synthetischen Perioden im aufgeteilten
Signal durchzuführen.
Ein Blockschaltbild einer entsprechenden Vorrichtung ist in 21 gezeigt.
Diese weist eine Trenneinheit 91, eine Synthetisiereinheit 92 mit
einem TP-Perioden Synthesizer 92a und einem HP-Perioden Synthesizer 92b,
einen Addierer 93 und eine gesteuerte Schalt- und Einfügeeinheit 94 auf.
Das entstehende Ausgangssignal y(k) ist zu dem Signal y(k) aus 19 äquivalent,
wenn für
die Einzelelemente der Vorrichtung die gleichen Parameter verwendet
werden und zur Aufspaltung komplementäre Filterbänke, wie sie in 16 gezeigt
sind, verwendet werden.
-
Eine
spezielle Implementierung des erfindungsgemäßen Verfahrens zur Veränderung
der Tonhöhe
ist in 22 gezeigt. 22a zeigt ein Blockschaltbild einer entsprechenden
Vorrichtung; 22b zeigt dabei die Spektren
der auftretenden Signale. Das Eingangssignal wird in der Trenneinheit 101 zerlegt.
Das Tiefpasssignal xTP(k) wird durch einen
bekannten Ansatz, z.B. PSOLA oder Phase-Vocoder, in der Bearbeitungseinheit 102a verlängert und
durch Resampling zur gewünschten
Tonhöhe verschoben.
Die vorher erwähnten
Artefakte der Formantverschiebung treten somit nur für diesen
Frequenzbereich auf. Der Hochpassanteil xHP(k)
wird dagegen in der Bearbeitungseinheit 102b mit dem Lent-Algorithmus
oder einem anderen formanterhaltenden Algorithmus zur gewünschten
Tonhöhe
verschoben, wobei die Bearbeitung an sich mittels der Synchronisationseinheit 104 synchronisiert
wird. Die Addition der Signale in der Kombinationseinheit 103 führt zum
Ausgangssignal y(k), das sich insbesondere bei der Verschiebung
der Tonhöhe
nach unten durch eine verbesserte Natürlichkeit auszeichnet.
-
Ein ähnliches
Resultat lässt
sich auch erzielen, wenn die Reihenfolge der Verarbeitung wie bei dem
anhand von 23 erläuterten Verfahren umgedreht
wird. 23a zeigt ein Blockschaltbild
einer entsprechenden Vorrichtung; 23b zeigt
dabei die Spektren der auftretenden Signale. So ist es möglich, das
Eingangssignal x(k) zum einen mittels einer ersten Bearbeitungseinheit 111a durch
eine Verlängerung
und Resampling in die gewünschte
neue Tonhöhe
zu überführen und
zum anderen mit einer zweiten Bearbeitungseinheit 111b synchron
dazu (Synchronisationseinheit 114) eine Bearbeitung mit
einem formanterhaltenden Algorithmus (z.B. Lent-Algorithmus) durchzuführen. Das
erste Signal yPit0(k) wird anschließend mit
Hilfe einer ersten Trenneinheit 112a zerlegt. Ebenso wird
das zweite Signal YPit1(k) mit Hilfe einer
zweiten Trenneinheit 112b zerlegt. Abschließend werden
unterschiedliche Teilsignale, in diesem Beispiel das Tiefpasssignal
yTP(k) der ersten Trenneinheit 112a und
das Hochpasssignal yHP(k) der zweiten Trenneinheit 112b,
in der Kombinationseinheit 113 neu kombiniert.
-
Eine
rechenzeitreduzierte, aber im Ausgangssignal äquivalente Form ist in 24 gezeigt. Hierbei
werden die Ausgangssignale der Bearbeitungseinheiten 121a, 121b mit
den Algorithmen zur Veränderung
der Tonhöhe
yPit0(k) und yPit1(k)
einem Tiefpassfilter 122a bzw. einem Hochpassfilter 122b zugeführt. Eine
abschließende
Addition der gefilterten Signale in der Kombinationseinheit 123 ergibt
das Ausgangssignal y(k), das eine deutlich verbesserte Natürlichkeit
besitzt.
-
Insbesondere
bei der Nutzung unterschiedlicher Algorithmen kann es vorkommen,
dass eine einfache Addition der unterschiedlich bearbeiteten Teilsignale
nicht funktioniert, da die unterschiedlichen Algorithmen zum Teil
unterschiedliche Blockgrößen erfordern
und somit ein zeitlicher Versatz entsteht. Ein weiteres Problem
ergibt sich dadurch, dass einige Verfahren Pitch Synchron (PSOLA,
Lent) sind, andere aber nicht (Resampling, Phase-Vocoder). Somit können sowohl Phasendifferenzen
als auch unterschiedliche Teilsignallängen entstehen, die es auszugleichen
gilt. Um trotzdem ein geeignetes Ausgangssignal zu erhalten, ist
vorzugsweise in der Kombinationseinheit eine Synchronisationseinheit
vorgesehen, die die unterschiedlich bearbeiteten Signale entsprechend
ihrer Laufzeit, Länge
und Phase verzögert und
richtig zusammensetzt.
-
25 zeigt
die verschiedenen Möglichkeiten
der bei der Erfindung bevorzugt eingesetzten Frequenzaufteilung
mittels der beschriebenen Trenneinheiten. Die einfachste Form der
Frequenzaufteilung ist, wie in 25a gezeigt,
eine beliebige Zuordnung der Frequenzen zu einem Teilsignal, wobei
eine Frequenz auch mehrfach zugeordnet werden darf. Die einzelnen
Teilsignale, von denen in 25a für zwei Teilsignale
jeweils das Spektrum gezeigt ist, können also über Filter mit einer entsprechenden Übertragungsfunktion
gewonnen werden.
-
Eine
zweite Möglichkeit
der Frequenzaufteilung, wie sie in 25b gezeigt
ist, ist die komplementäre
Aufteilung. Bei dieser Art der Aufteilung wird der Frequenzbereich
in mehrere nicht überlappende Teilbereiche
aufgespalten. Wichtig ist dabei, dass jede Frequenz nur jeweils
einem Teilsignal zugeordnet wird, dass also die einzelnen Frequenzbereiche nicht
mehrfach zugeordnet werden. Die Erzeugung der Teilsignale, von denen
in 25b wiederum für zwei Teilsignale die Spektren
gezeigt sind, kann über komplementäre Filter
erfolgen.
-
Eine
dritte und bei der vorliegenden Erfindung bevorzugte Form der Frequenzaufteilung
ist die komplementäre
Bandaufteilung, wie sie in 25c gezeigt
ist. Dabei wird der Frequenzbereich durch Tief-, Hoch- und Bandpässe so aufgeteilt,
dass jeder Frequenzbereich zusammenhängend ist und nur einem Teilsignal
zugeordnet wird. Die Spektren dreier solcher Teilsignale sind in 25c gezeigt.