DE19710545C1 - Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen - Google Patents
Effizientes Verfahren zur Geschwindigkeitsmodifikation von SprachsignalenInfo
- Publication number
- DE19710545C1 DE19710545C1 DE19710545A DE19710545A DE19710545C1 DE 19710545 C1 DE19710545 C1 DE 19710545C1 DE 19710545 A DE19710545 A DE 19710545A DE 19710545 A DE19710545 A DE 19710545A DE 19710545 C1 DE19710545 C1 DE 19710545C1
- Authority
- DE
- Germany
- Prior art keywords
- section
- segments
- speech signal
- digitized
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000002715 modification method Methods 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 11
- 230000000630 rising effect Effects 0.000 claims abstract description 6
- 238000012986 modification Methods 0.000 claims description 16
- 230000004048 modification Effects 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000001788 irregular Effects 0.000 claims 2
- 238000004904 shortening Methods 0.000 abstract 1
- 238000013459 approach Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Analogue/Digital Conversion (AREA)
- Time-Division Multiplex Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Gegenstand der Erfindung ist ein Verfahren zur Geschwindigkeitsmodifikation von
Sprachsignalen im Zeitbereich, insbesondere eine effiziente Overlap-Add-Methode.
In verschiedenen Bereichen der Verarbeitung von Sprach- und Audiosignalen ist
eine Veränderung der Wiedergabegeschwindigkeit dieser Signale erwünscht,
möglichst ohne daß damit eine Beeinträchtigung ihrer Natürlichkeit und - im Fall von
Sprache - ihrer Verständlichkeit verbunden wäre. Dieses Ziel, den Klangcharakter zu
erhalten, kann man aus technischer Sicht folgendermaßen formulieren: Trotz einer
Modifikation der Zeitskala dieser Signale sollen ihre Kurzzeitspektraleigenschaften
unverändert bleiben. Insbesondere bedeutet das für Sprachsignale, daß
Grundfrequenz und Formanten bei der Geschwindigkeitsmodifikation erhalten
bleiben müssen.
Die Zeitstauchung oder Zeitdehnung von Audiosignalen wird in Studios eingesetzt,
zum Beispiel mit dem Ziel, Werbesendungen auf die vorgesehene Länge zu
trimmen. Auch in der Diktiertechnik ist die Anpassung der
Wiedergabegeschwindigkeit an die Bedürfnisse bzw. Fähigkeiten der Schreibkraft
von Bedeutung. Eine weitere Anwendung besteht bei der Echtzeitübertragung von
Sprachsignalen, bei der Datenpakete mit variabler Verzögerung beim Empfänger
eintreffen. Durch Anwendung der Geschwindigkeitsmodifikation kann man hier die
Über-Alles-Verzögerung im Mittel geringer halten als das Worst-Case Delay der
Übertragungsstrecke, ohne daß ein zu spät eintreffendes Datenpaket zu Aussetzern
oder anderen, ähnlich störenden Effekten führen würde.
Für viele Anwendungen ergeben sich neben dem Wunsch nach möglichst hoher
Klangqualität die folgenden zusätzlichen Anforderungen an das Verfahren:
Eine kostengünstige Echtzeitrealisierung muß erzielbar sein, und es muß zur
Laufzeit eine nach Möglichkeit stufenlose Änderung des
Geschwindigkeitsmodifikationsfaktors möglich sein. Von Vorteil ist ohne Zweifel
auch, wenn der Algorithmus ohne eine stets fehlerbehaftete Pitch-Schätzung
auskommt.
Aus "Method for Time or Frequency Compression-Expansion of Speed", von G.
Fairbaks und R. P. Jaeger, Inst. of Radio Engineers Trans. on Audio, Vol. AU-2, No.
1, pp. 7-12, Jan. 1954, sind erste Untersuchungen zur Sprachsignalstauchung bzw.
Sprachsignaldehnung bekannt. Häufig wurden seitdem Frequenzbereichsverfahren
eingesetzt - naheliegend, da, wie eingangs erwähnt, die
Kurzzeitspektraleigenschaften des Sprachsignals erhalten bleiben sollen. Seit Mitte
der achtziger Jahre sind vergleichsweise einfache im Zeitbereich arbeitende
Overlap-Add-Verfahren bekannt, mit denen sehr gut klingende zeitskalierte
Sprachsignale erzeugt werden können.
In "Signal Estimation from Modified Short-Time Fourier Transform", von D. W.
Griffin, in IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-32, No. 2, pp.
236-242, Apr. 1984, berichten Griffin und Lim von Experimenten mit einer sehr
aufwendigen iterativ arbeitenden Phasenbestimmung. Auf diesen Ansatz nimmt
wiederum die Veröffentlichung von S. Roucos und A. M. Wilgus "High Quality Time-
Scale Modification for Speech", IEEE Proc. Int. Conf. Acoust., Speech, Signal
Processing, pp. 493-496, 1985, Bezug, die eine Zeitbereichsmethode vorgeschlagen,
die mittels eines Overlap-Add-Ansatzes zeitskalierte Sprechsignale erzeugt. Bei
diesem sogenannten SOLA-Verfahren (SOLA = Synchronized OverLap-Add) erfolgt
eine Synchronisation der in regelmäßigen Abständen dem Originalsignal
entnommenen Abschnitte durch Verschiebung vor der jeweils entsprechenden
Fensterung und Addition im Zielsignal. Dies entspricht im weiteren Sinne der
Phasenoptimierung, wie sie in den Frequenzbereichsverfahren durchgeführt wird.
Eng mit dem SOLA-Algorithmus verwandt ist das sogenannte WSOLA-Verfahren
(WSOLA = Waveform Similarity Overlap-Add), das W. Verhelst und M. Roelands in
"An Overlapp-Add Technique Based on Waveform Similarity (WSOLa) for High
Quality Time-Scale Modification of Speed", IEE Proc. Int. Conf. Acoust., Speech,
Signal Processing, pp. 554-557, 1993, und "Wafeform Similarity Based Overlap-Add
(WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation", Int.
Conf. on Speech Communication and Technology, pp. 337-340, 1993, vorstellen.
Der Hauptunterschied zwischen diesen beiden Ansätzen besteht in der
Synchronisation, die im WSOLA-Verfahren durch versetztes Entnehmen von
Segmenten aus dem Originalsignal durchgeführt wird, was sich gegenüber dem
SOLA-Prinzip vor allem aufwandsmindernd auswirkt.
Aufgabe der Erfindung ist es, ein Verfahren zur Geschwindigkeitsmodifikation von
Sprachsignalen im Zeitbereich anzugeben, das besonders effizient arbeitet und gegenüber dem
St.d.T. weniger Aufwand erfordert.
Diese Aufgabe wird durch die Merkmale der Ansprüche 1 und 2 gelöst. Vorteilhafte
Ausgestaltungen der Erfindung sind in der
nachfolgenden Beschreibung angegeben.
Die Erzeugung der mit dem Faktor α zeitskalierten Version y(k) eines Sprachsignals
x(k) erfolgt gemäß der Synthese
mit einer Fensterfunktion
Die hierin vorkommende für k = 0, . . ., N-1 definierte Funktion v(k) ist dabei
sinnvollerweise zwischen ihren Extrema v(0)=ε₀ mit 0<ε₀»1 und v(N-1)=1-ε₁ mit
0<ε₁»1 monoton wachsend.
Die angegebene w(k)-Definition stellt sicher, daß die für sinnvolles Overlap-Add
notwendige Bedingung
erfüllt ist.
Die in obiger Synthesegleichung enthaltene Verschiebevariable Δλ ist zwecks der
erwähnten Synchronisation aus einem "Toleranzbereich" -Δmax, . . ., Δmax zu
bestimmen.
Die prinzipielle Vorgehensweise ist wie folgt:
Aus dem Originalsignal x(k) werden in - abgesehen von einem
synchronisationsbedingten "Jitter" - regelmäßigen αL Werte betragenden Abständen
Segmente der Länge L+N entnommen und nach Gewichtung mit w(k) jeweils um L
Abtastwerte versetzt aufaddiert. Das auf diese Weise erhaltene Signal y(k) ist
gegenüber x(k) um den Faktor α beschleunigt, das heißt, daß eine im Originalsignal
x(k) enthaltene Äußerung von K Abtastwerten Länge durch dieses Vorgehen auf
einen y(k)-Abschnitt der Länge K/α abgebildet, also verkürzt und damit in der
Wiedergabe beschleunigt für α<1, bzw. verlängert, das heißt verlangsamt, wird,
wenn α<1 ist.
Die Synchronisation der zu überlappenden Abschnitte ist für die resultierende
Klangqualität von großer Bedeutung. Hierzu wird der folgende Ansatz verwendet:
Während der Abarbeitung des Verfahrens kann zu jedem dem Signal x(k)
entnommenen Segment für den nächsten Schritt als "Idealsegment" der um L
Abtastwerte versetzte Abschnitt von x(k) angesehen werden, da durch diese Wahl
die Overlap-Add-Operation wieder das Originalsignal x(k) reproduzieren würde. Die
erwünschte Zeitskalierung erfordert nun aber, daß für die Overlap-Add-Synthese i.
a. ein anderer, gegenüber dem "Idealsegment" versetzter Abschnitt von x(k)
ausgewählt wird. Die bestmögliche Synchronisation ist gegeben, wenn der für die
Overlap-Add-Operation benutzte Abschnitt größtmögliche Ähnlichkeit ("Waveform
Similarity") mit dem "Idealsegment" aufweist.
Als Kriterium für die Ähnlichkeit der genannten Segmente bieten sich verschiedene
Maße an. Naheliegend ist beispielsweise die Benutzung des
Korrelationskoeffizienten. Während W. Verhelst und M. Roelands in "An Overlap-
Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale
Modification of Speed", in IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing,
pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for
Time-Scale Modification of Speech: Structures and Evaluation" in Int. Conf. on
Speech Communication and Technology, pp. 337-340, 1993, für die Auswertung des
Ähnlichkeitsmaßes das kompette Segment der Länge L+N herangezogen haben,
erscheint es als vollkommen ausreichend, die Berechnung auf den Bereich der N
Abtastwerte zu beschränken, in dem die Segmente tatsächlich überlappen.
Für die weiteren Darstellungen ist es hilfreich, die folgende Vektornotation
einzuführen:
Der N Werte lange Abschnitt des "Idealsegment", in dem die Überlappung mit dem
neu zu bestimmenden Segment stattfinden wird, sei mit x bezeichnet, die ersten N
Werte des verschobenen Segments mit xq. Die Gewichtung dieses Abschnitts mit
der steigenden Flanke des Fensters wird durch Multiplikation dieses Vektors mit
einer Diagnoalmatrix V repräsentiert, die mit den Werten
v(0), . . ., v(N-1) besetzt ist. Entsprechend wird die Gewichtung des
Idealsegmentabschnitts x mit der fallenden Flanke des Fensters durch Multiplikation
mit 1-V dargestellt, wobei 1 die N×N-Einheitsmatrix bezeichnet. Der im kritischen
Überlappungsbereich aus der Overlap-Add-Synthese resultierende y(k)-Abschnitt lautet damit
y = (1-V)x + Vxq
Beispielsweise läßt sich nun als Maß für die Ähnlichkeit der hierbei beteiligten
Komponenten eine Kreuzkorreliertenberechnung gemäß
Cδ = xT (1-V)T Vxq
angeben. Maximierung dieses Ausdrucks bezüglich der sich in xq
wiederfindenden Verschiebung δ ∈ {-Δmax, . . ., Δmax} liefert die für das betrachtete
Segment im Sinne der angesetzten Ähnlichkeitsmaßes optimale Verschiebung Δλ.
Die Berechnung der Cδ erfordert alle L Abtastwerte 2N Multiplikationen für die
Vorabberechnung des Ausdrucks xT (1-V)TV sowie anschließend (2Δmax+1)N
Multiplikationen und Additionen.
Dies stellt gegenüber W. Verhelst und M. Roelands in "An Overlap-Add Technique
Based on Waveform Similary (WSOLA) for High Quality Time-Scale Modification of
Speed", in IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557,
1993, und "Waveform Similaritiy Based Overlap-Add (WSOLA) for Time-Scale
Modification of Speech, Signal Processing, pp. 554-557,
1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale
Modification of Speech: Structures and Evaluation" in Int. Conf. on Speech
Communication and Technology, pp. 337-340, 1993, eine Aufwandsreduktion um
den Faktor zwei dar, der sich für L<N sogar noch erhöht. Die Beschränkung der
Ähnlichkeitsberechnung auf den Bereich der Überlappung hat keinerlei negative
Auswirkungen auf die Qualität der zeitskalierten Sprachproben.
Ein anderer Ansatz für die Synchronisation ist, anstelle der Maximierung der
"Waveform Similarity" den Fehler zwischen dem synthetisierten Signal y und dem
Originalsignal x zu minimieren. Eine einfache willkürliche Wahl ist, für diesen Fehler
den quadratischen Ausdruck
Eδ = || x-y ||²
anzusetzen.
Bei Vernachlässigung der Vorabberechnungen beläuft sich der für die Auswertung
von Eδ anfallende Aufwand auf (2Δmax+1)4N DSP-Operationen alle L Abtastwerte.
Hierunter werden solche Operationen verstanden, die ein Signalprozessor mit
gängiger Architektur in einem Schritt abarbeiten kann.
Ein weiterer Ansatz besteht darin, anstelle des absoluten Fehlers den relativen
Fehler
zu minimieren, was als SNR-Maximierung interpretiert werden kann. (2Δmax+1)5N
Operationen sind hier vor jeder Overlap-Add-Operation erforderlich.
Claims (4)
1. Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere
digitalisierten Sprachsignalen, bei dem
- - ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,
- - ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,
- - eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,
- - aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden,
- - diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden,
- - die gewichteten Segmente jeweils um eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal um den Faktor α verlängert bzw. um 1/α verkürzt wird,
dadurch gekennzeichnet
- - daß nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort entnommene, mit der Fensterfunktion gewichtete, Segment mit dem nachfolgend entnommenen, ebenfalls mit der Fensterfunktion gewichteten, Segment unter Ähnlichkeitsaspekten verglichen wird,
- - daß zum schnellen Vergleich der Ähnlichkeit der Segmente lediglich der N Werte lange dritte, mit dem fallenden Fensterabschnitt gewichtete, Abschnitt des Segmentes mit dem jeweils ersten, mit dem steigenden N Werte langen Fensterabschnitt gewichteten Abschnitten des nachfolgenden Segmentes verglichen wird,
- - daß diese Segmente zueinander versetzt aufaddiert werden, wenn die Ähnlichkeit beider verglichener Segmentteile maximal ist und
- - daß zur Berechnung der Ähnlichkeit, als deren Maß, eine Korrelation verwendet wird.
2. Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere
digitalisierten Sprachsignalen, bei dem
- - ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,
- - ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,
- - eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,
- - aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden,
- - diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden,
- - die gewichteten Segmente jeweils um eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal um den Faktor α verlängert bzw. um 1/α verkürzt wird,
dadurch gekennzeichnet,
- - daß nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort entnommene Segment mit dem Resultat der Synthese mit dem nachfolgend entnommenen Segment verglichen wird,
- - daß zum schnellen Vergleich der Abweichung des jeweiligen Syntheseresultats vom Originalsignal lediglich der N Werte lange dritte Abschnitt des zuletzt entnommenen Segmentes als Referenz herangezogen wird,
- - daß diese Segmente zueinander versetzt aufaddiert werden, wenn die ermittelte Abweichung minimal ist und
- - daß als Maß für die Abweichung der relative Fehler oder der absolute quadratische Fehler herangezogen wird.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19710545A DE19710545C1 (de) | 1997-03-14 | 1997-03-14 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
DE59810302T DE59810302D1 (de) | 1997-03-14 | 1998-03-12 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
AT98104455T ATE255763T1 (de) | 1997-03-14 | 1998-03-12 | Effizientes verfahren zur geschwindigkeitsmodifikation von sprachsignalen |
EP98104455A EP0865026B1 (de) | 1997-03-14 | 1998-03-12 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19710545A DE19710545C1 (de) | 1997-03-14 | 1997-03-14 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19710545C1 true DE19710545C1 (de) | 1997-12-04 |
Family
ID=7823336
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19710545A Expired - Fee Related DE19710545C1 (de) | 1997-03-14 | 1997-03-14 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
DE59810302T Expired - Lifetime DE59810302D1 (de) | 1997-03-14 | 1998-03-12 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59810302T Expired - Lifetime DE59810302D1 (de) | 1997-03-14 | 1998-03-12 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0865026B1 (de) |
AT (1) | ATE255763T1 (de) |
DE (2) | DE19710545C1 (de) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9911737D0 (en) | 1999-05-21 | 1999-07-21 | Philips Electronics Nv | Audio signal time scale modification |
US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
AU2002307533B2 (en) | 2001-05-10 | 2008-01-31 | Dolby Laboratories Licensing Corporation | Improving transient performance of low bit rate audio coding systems by reducing pre-noise |
DE10327057A1 (de) * | 2003-06-16 | 2005-01-20 | Siemens Ag | Vorrichtung zum zeitlichen Stauchen oder Strecken, Verfahren und Folge von Abtastwerten |
DE102004053093B4 (de) * | 2004-11-03 | 2006-08-17 | Siemens Ag | Verfahren zur Ausgabe eines Nutzdatenstroms und Kommunikationsendgerät zum Empfang und zur Ausgabe eines Nutzdatenstroms |
JP2010017216A (ja) | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
CN102855884B (zh) * | 2012-09-11 | 2014-08-13 | 中国人民解放军理工大学 | 基于短时连续非负矩阵分解的语音时长调整方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69024919T2 (de) * | 1989-10-06 | 1996-10-17 | Matsushita Electric Ind Co Ltd | Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit |
US5630013A (en) * | 1993-01-25 | 1997-05-13 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for performing time-scale modification of speech signals |
US5694521A (en) * | 1995-01-11 | 1997-12-02 | Rockwell International Corporation | Variable speed playback system |
-
1997
- 1997-03-14 DE DE19710545A patent/DE19710545C1/de not_active Expired - Fee Related
-
1998
- 1998-03-12 DE DE59810302T patent/DE59810302D1/de not_active Expired - Lifetime
- 1998-03-12 AT AT98104455T patent/ATE255763T1/de not_active IP Right Cessation
- 1998-03-12 EP EP98104455A patent/EP0865026B1/de not_active Expired - Lifetime
Non-Patent Citations (5)
Title |
---|
FAIRBANKS, G., JAEGER, R.P.: "Method for Time Frequency Compression-Expansion of Speed". In: Inst. of Radio Engineers Trans on Audio, Vol. AU-2, No. 1, Jan. 1954, S. 7-12 * |
GRIFFIN, D.W.: "Signal Estimation from Modified Short-Time Fourier Transform". In: IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-32, No. 2, Apr. 1984, S. 236-242 * |
ROUCOS, S., WILGUS, A.M.: "High Quality Time- Scale Modification for Speech". In: IEEE Proc.Int.Conf.Acoust., Speech, Signal Processing, 1985, S. 493-496 * |
VERHELST, W., ROELANDS, M.: "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed". In: IEEE Proc.Int.Conf.Acoust., Speech, Signal Processing, 1993, S. 554-557 * |
VERHELST, W., ROELANDS, M.: "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modifi- cation of Speed: Structures and Evaluation". * |
Also Published As
Publication number | Publication date |
---|---|
EP0865026A3 (de) | 1999-02-10 |
EP0865026B1 (de) | 2003-12-03 |
EP0865026A2 (de) | 1998-09-16 |
ATE255763T1 (de) | 2003-12-15 |
DE59810302D1 (de) | 2004-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69428612T2 (de) | Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE69024919T2 (de) | Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit | |
DE60127274T2 (de) | Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen | |
DE69230324T2 (de) | Verfahren zur Zeitskalenmodifikation von Signalen | |
DE60214358T2 (de) | Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp | |
DE69121312T2 (de) | Geräuschsignalvorhersagevorrichtung | |
DE69926462T2 (de) | Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung | |
DE60023237T2 (de) | Verfahren zur verschleierung von paketverlusten | |
DE60305716T2 (de) | Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals | |
DE19710545C1 (de) | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen | |
DE69425935T2 (de) | Verfahren zur Unterscheidung zwischen stimmhaften und stimmlosen Lauten | |
DE69612958T2 (de) | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE2551632A1 (de) | Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache | |
DE60031812T2 (de) | Vorrichtung und Verfahren zur Klangsynthesierung | |
DE2622423A1 (de) | Vocodersystem | |
DE69717377T2 (de) | Sprachgeschwindigkeitsumwandler | |
DE2805478A1 (de) | Diskriminatoranordnung fuer sprachsignale | |
DE102004028694B3 (de) | Vorrichtung und Verfahren zum Umsetzen eines Informationssignals in eine Spektraldarstellung mit variabler Auflösung | |
DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals | |
DE60311482T2 (de) | Verfahren zur steuerung der dauer bei der sprachsynthese | |
DE2649540A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE60303688T2 (de) | Sprachsynthese durch verkettung von sprachsignalformen | |
DE60316678T2 (de) | Verfahren zum synthetisieren von sprache |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: GRUNDIG AG, 90471 NUERNBERG, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: GRUNDIG MULTIMEDIA B.V., AMSTERDAM, NL |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: PROELL, J., RECHTSANW., 90471 NUERNBERG |
|
8339 | Ceased/non-payment of the annual fee |