DE10041512B4 - Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen - Google Patents

Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen Download PDF

Info

Publication number
DE10041512B4
DE10041512B4 DE10041512A DE10041512A DE10041512B4 DE 10041512 B4 DE10041512 B4 DE 10041512B4 DE 10041512 A DE10041512 A DE 10041512A DE 10041512 A DE10041512 A DE 10041512A DE 10041512 B4 DE10041512 B4 DE 10041512B4
Authority
DE
Germany
Prior art keywords
signal
speech signal
filter coefficients
bandwidth
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE10041512A
Other languages
English (en)
Other versions
DE10041512A1 (de
Inventor
Peter Jax
Jürgen Schnitzler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Infineon Technologies AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infineon Technologies AG filed Critical Infineon Technologies AG
Priority to DE10041512A priority Critical patent/DE10041512B4/de
Priority to PCT/EP2001/009125 priority patent/WO2002017303A1/de
Priority to US10/111,522 priority patent/US7181402B2/en
Publication of DE10041512A1 publication Critical patent/DE10041512A1/de
Application granted granted Critical
Publication of DE10041512B4 publication Critical patent/DE10041512B4/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen mit den Schritten:
Bereitstellen eines schmalbandigen Sprachsignals mit einer vorbestimmten Abtastrate;
Durchführen einer Analysefilterung an dem abgetasteten Sprachsignal mit aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten, welche eine Erweiterung der Bandbreite der Einhüllenden bewirken;
Durchführen einer Restsignalerweiterung an dem anlaysegefilterten Sprachsignal; und
Durchführen einer Synthesefilterung an dem restsignalerweitereten Sprachsignal zur Erzeugung eines breitbandigeren Sprachsignals mit den aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten;
dadurch gekennzeichnet,
daß die Filterkoeffizienten für die Analysefilterung und die Synthesefilterung durch einen Algorithmus aus einem im voraus trainierten Codebuch ermittelt werden.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen, wie aus der US 5,455,888 bekannt.
  • Sprachsignale überstreichen einen breiten Frequenzbereich, der in etwa von der Sprachgrundfrequenz, die abhängig vom Sprecher um ca. 80 bis 160 Hz liegt, bis zu den Frequenzen jenseits von 10 kHz reicht. Bei der Sprachkommunikation über bestimmte Übertragungsmedien, wie z.B. Telefon wird allerdings aus Gründen der Bandbreiteneffizienz nur ein eingeschränkter Ausschnitt übertragen, wobei eine Satzverständlichkeit von ca. 98% gewährleistet ist.
  • Entsprechend der minimalen für das Telefonsystem spezifizierten Bandbreite von 300 Hz bis 3400 Hz lässt sich ein Sprachsignal grob in drei Frequenzbereiche unterteilen, jeder dieser Bereiche ist für spezifische Spracheigenschaften und subjektive Empfindungen verantwortlich:
    • • Tiefe Frequenzen unterhalb von etwa 300 Hz entstehen hauptsächlich während stimmhafter Sprachabschnitte wie z.B. Vokalen. Dieser Frequenzbereich enthält in diesem Fall tonale Komponenten, d.h. insbesondere die Sprachgrundfrequenz (fp) sowie je nach Stimmlage eventuell einige Harmonische.
  • Die tiefen Frequenzen sind für die subjektive Empfindung von Volumen und Dynamik eines Sprachsignals von entscheidender Bedeutung. Die Sprachgrundfrequenz lässt sich demgegenüber von einem menschlichen Hörer aufgrund der psychoakustischen Eigenschaft der virtuellen Tonhöhenempfindung auch bei Fehlen der tiefen Frequenzen aus der harmo nischen Struktur in höheren Frequenzbereichen wahrnehmen.
    • • Mittlere Frequenzen im Bereich 300 bis 3400 Hz sind bei Sprachaktivität durchgängig im Sprachsignal vorhanden. Ihre zeitvariante spektrale Färbung durch mehrere Formate sowie die zeitliche und spektrale Feinstruktur charakterisieren den jeweils gesprochenen Laut/Phonem. Auf diese Weise transportieren die mittleren Frequenzen den Hauptteil der für die Verständlichkeit der Sprache relevanten Informationen.
    • • Hohe Frequenzanteile oberhalb von etwa 3.4 kHz entstehen vornehmlich während stimmloser Laute; sie sind besonders stark bei scharfen Lauten wie z.B. /s/ oder /f/. Auch Plosivlaute wie /k/ oder /t/ weisen ein breites Spektrum mit starken hochfrequenten Anteilen auf. Entsprechend hat das Signal in diesem oberen Frequenzbereich einen eher rauschartigen als tonalen Charakter. Die Struktur der auch in diesem Bereich vorhandenen Formanten ist verhältnismässig zeitinvariant, unterscheidet sich jedoch für verschiedene Sprecher. Die hohen Frequenzanteile sind wichtig für die Natürlichkeit, Klarheit und Präsenz eines Sprachsignals – ohne diese Komponenten wirkt die Sprache dumpf. Weiterhin ermöglichen diese oberen Frequenzen eine bessere Unterscheidung von Frikativen und Konsonanten und sorgen somit für eine erhöhte Verständlichkeit.
  • Sowohl der Bereich der hohen als auch der tiefen Frequenzen enthält eine Reihe sprecherspezifischer Eigenschaften und erleichtert somit die Identifikation des Sprechers durch einen Hörer. Diese Aussage muss jedoch insofern relativiert werden, als man sich in der Regel an die „Telefonsprache" einer Person gewöhnt und diese dann trotz einer Begrenzung der Bandbreite recht gut erkennen kann.
  • Das Ziel eines Sprachkommunikationssystems ist immer die Übertragung eines Sprachsignals mit bestmöglicher Qualität über einen Kanal mit eingeschränkter Bandbreite. Die Sprachqualität ist hierbei eine subjektive Größe mit vielen Komponenten, von denen für ein Kommunikationssystem sicherlich die Verständlichkeit die wichtigste darstellt. Die Übertragungsbandbreite des analogen Telefons wurde als Kompromiss zwischen Bandbreite und Sprachverständlichkeit definiert: die Satzverständlichkeit beträgt im ungestörten Fall etwa 98%. Allerdings ist die Silbenverständlichkeit auf eine deutlich geringere Erkennungsrate eingeschränkt.
  • Mit der modernen digitalen Übertragungstechnik bewegt man sich in einen Bereich sehr hoher Sprachverständlichkeit, und weitere Aspekte der Sprachqualität gewinnen an Bedeutung, insbesondere solche rein subjektiver Art wie Natürlichkeit oder Lautheit bzw. Dynamik. Bedient man sich des Mean Opinion Score (MOS) als Gesamtmaß für die subjektive Sprachqualität, so lässt sich durch Hörtests der Einfluss der Bandbreie auf das Hörempfinden bestimmen. Ergebnisse einer solchen Untersuchung für Telefonhandapparate sind in 10 zusammengefasst.
  • Wie zu erkennen ist, lässt sich sowohl durch eine Erweiterung der Telefonbandbreite um hohe Frequenzen (größer als 3,4 kHz) als auch um tiefe Anteile (kleiner als 300 Hz) eine deutliche Verbesserung der subjektiven Beurteilung eines Sprachsignals erzielen. Die besten Ergebnisse werden erreicht, wenn die Erweiterung ausgewogen nach oben und unten erfolgt; durch eine Vergrößerung der Bandbreite auf den Bereich 50 Hz bis 7 kHz lassen sich gegenüber Telefonsprache über 1,4 MOS-Punkte gewinnen.
  • Im Sinne einer subjektiven Qualitätsverbesserung ist also eine gegenüber der üblichen Telefonbandbreite vergrößerte Bandbreite bei Systemen zur Sprachkommunikation anzustreben.
  • Ein möglicher Ansatz besteht darin, die Übertragung zu modifizieren und entweder eine größere Bitrate zu verwenden oder mittels Codierverfahren eine breitere übertragene Bandbreite zu bewirken. Dieser Ansatz ist jedoch aufwendig.
  • Die künstliche Erweiterung der Bandbreite von Sprachsignalen ohne Übertragung zusätzlicher Nebeninformationen nimmt in der Literatur im Vergleich zu anderen Funktionen der digitalen Sprachsignalverarbeitung bisher nur einen sehr kleinen Raum ein. Die veröffentlichten Verfahren unterscheiden sich grundsätzlich darin, ob eine Erweiterung zu hohen oder zu tiefen Frequenzen erzielt werden soll. Weiterhin legen die verschiedenen Algorithmen in unterschiedlichem Maß Schwerpunkte auf die Rekonstruktion der groben spektralen Struktur und/oder auf zeitliche und spektrale Feinstrukturen.
  • Die ersten Versuche zur Bandbreitenerweiterung wurden schon in 1971 von der BBC mit dem Ziel durchgeführt, sogenannte Phone-In-Beiträge in Radio- oder Fernsehsendungen aufwerten zu können (M.G. Croll, „Sound Quality Improvement of Broadcast Telephone Calls", BBC Research Report RD1972/26, British Broadcasting Corporation, 1972). Für die Erweiterung nach unten wurde vorgeschlagen, tiefe Frequenzkomponenten durch einen nichtlinearen Gleichrichter zu generieren und nach der Filterung mit einem Bandpass der Bandbreite 80 Hz bis 300 Hz dem Originalsignal hinzuzuaddieren.
  • Ein weitergehender Vorschlag, einzelne Sinustöne bei der Pitch-Frequenz und dessen erster Harmonischen hinzuzufügen, führt zu einem unausgewogenen Zusammenklang mit dem bandbegrenzten Sprachsignal, obwohl für die Bestimmung der Amplitude dieser Sinustöne der Effektivwert der Sprachkomponenten zwischen 300 Hz und 1 kHz herangezogen wird (P.J. Patrick, „Enhancement of Bandlimited Speech Signals", Dissertation, Loughborough University of Technology, 1983).
  • Für die Erzeugung hoher Frequenzanteile wurde vorgeschlagen, das Ausgangssignal eines Rauschgenerators mit der Leistung eines Teilbandes (2.4 – 3.4 kHz) des Originalsignals zu modulieren und nach einer Bandpassfilterung der Bandbreite 3.4 – 7.6 kHz zu dem Originalsignal zu addieren.
  • Ein weiterer Ansatz von Patrick basiert auf einer Analyse des Eingangssignals mittels Fensterung und FFT. Der Bandbereich zwischen 300 Hz und 3.4 kHz wird in den Bereich von 3.4 – 6.5 kHz kopiert und abhängig von der Leistung des Originalsignals im Band 2.4 – 3.4 kHz sowie von dem Quotienten der Leistungen der Bereiche 2.4 – 3.4 kHz skaliert.
  • Ein weiteres Verfahren ist durch die Beobachtung motiviert, dass die höheren Formanten bei einem Sprecher sich zeitlich kaum in Frequenz und Breite verändern. Es wird also zunächst durch eine Nichtlinearität eine Anregung erzeugt, die als Eingangssignal für ein festes Filter zur Formung eines Formanten dient. Das Ausgangssignal des Filters wird zum Originalsignal addiert, allerdings nur während stimmhafter Laute. Ein auf statistischen Methoden basierendes System zur Bandbreitenerweiterung wird in Y.M. Cheng, D. O'Shaugnessy, P. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband Speech". IEEE Transactions on Speech and Audio Processing, Band 2, Nr. 4, Oktober 1994 beschrieben. Die Signalquelle (d.h. der Spracherzeugungsprozess) wird als eine Menge von voneinander unabhängigen, jeweils bandbegrenzten Teilquellen betrachtet, von denen aber bei einem schmalbandigen Signal nur eine beschränkte Anzahl zum Signal beitragen und somit beobachtbar sind. Anhand trainiertem a priori Wissen wird nun eine Schätzung für die Parameter der nicht direkt beobachtbaren Quellen berechnet, mit denen dann das (breitbandige) Gesamtsignal rekonstruiert werden kann.
  • Eine mit geringem Aufwand realisierbare Möglichkeit, die Digital-Analog Umsetzung mit einer Vergrößerung der Bandbreite zu verknüpfen, besteht darin, das der Digital-Analog-Wandlung folgende Anti-Aliasing Tiefpassfilter so zu gestalten, dass die Dämpfung bis zum eineinhalbfachen Vielfachen der Nyquistfrequenz langsam bis zu einem Wert von 20 dB abnimmt und erst dann ein steiler Übergang zu höheren Dämpfungen erfolgt (M. Dietrich, „Performance and Implementation of a Robust ADPCM Algorithm for Wideband Speech Coding with 64 kBit/s", Proc. International Zürich Seminar Digital Communications, 1984). Bei einer Abtastfrequenz von 16 kHz werden durch diese Maßnahme im Bereich von 8 bis 12 kHz Spiegelfrequenzen erzeugt, die den Eindruck einer größeren Bandbreite vermitteln.
  • In neuerer Zeit wurden einige Verfahren präsentiert, bei denen die Erweiterung der spektralen Einhüllenden und der Feinstruktur getrennt voneinander erfolgt (H. Carl, „Untersuchung verschiedener Methoden der Sprachcodierung und eine Anwendung zur Bandbreitenvergrößerung von Schmalband-Sprachsignalen", Dissertation, Ruhr-Universität Bochum, 1994). Hierbei wird zunächst rahmenweise eine LPC-Analyse des Eingangssignals durchgeführt und das Sprachsignal mit dem LPC-Inversfilter gefiltert. Das resultierende Restsignal ist im Idealfall durch den "Weißmacher-Effekt" der LPC von der spektralen Einhüllenden befreit und enthält nunmehr ausschließlich Informationen über die Feinstruktur des Signals.
  • Der Vorteil der Aufspaltung des Eingangssignals in eine Beschreibung der spektralen Grobstruktur und ein Restsignal liegt in der Möglichkeit, dass nun die beiden Teilalgorithmen zur Erweiterung der Komponenten unabhängig voneinander entworfen und optimiert werden können.
  • Die Aufgabe des Teilalgorithmus zur Erweiterung des Restsignals besteht darin, für das nachfolgende Filter ein breitbandiges Anregungssignal zu erzeugen, das einerseits wiederum spektral flach ist, aber andererseits auch eine zur Pitchfrequenz der Sprache passende harmonische Struktur besitzt.
  • Während bei der Restsignalerweiterung häufig ähnliche Ansätze gewählt werden, gehen die Wege bei der Ergänzung der spektralen Einhüllenden auseinander.
    • • Ein Teil der Methoden basiert auf der Annahme, dass zwischen den Parametern des Sprachtraktes in schmalbandiger und breitbandiger Beschreibungsform ein annähernd linearer Zusammenhang besteht. Die bei einer LPC-Analyse gewonnenen Parameter werden hierbei in verschiedenen Darstellungsformen verwendet, z.B. als Cepstralkoeffizienten oder Koeffizienten einer DFT-Analyse (z.B. H. Hermansky, C. Avendano, E.A. Wan, „Noise Reduction and Recovery of Missing Frequencies in Speech", Proceedings 15th Annual Speech Research Symposium, 1995). Die Parameter werden parallel in eine Anzahl linearer sogenannter Multiple Input Single Output (MISO) Filter eingespeist. Der Ausgang eines einzelnen MISO Filters stellt die Schätzung eines breitbandigen Parameters dar; diese Schätzung hängt also von sämtlichen schmalbandigen Parametern ab. Die Koeffizienten der MISO Filter werden vor der Bandbreitenerweiterung in einer Trainingsphase optimiert, z.B. nach einem Minimum Mean Squared Error Kriterium. Nachdem alle breitbandigen Parameter für den aktuellen Signalrahmen durch eigene MISO Filter geschätzt wurden, können sie in entsprechend umgerechneter Form als Koeffizienten des LPC-Synthesefilters verwendet werden.
    • • Ein zweiter Ansatz macht sich die beschränkte Zahl der in einem Sprachsignal vorkommenden Laute zu nutze. Es wird ein Codebuch mit Repräsentanten der Einhüllendenformen typischer Sprachlaute trainiert und gespeichert. Bei der Erweiterung wird dann verglichen, welche der gespeicherten Einhüllendenformen dem aktuellen Signalausschnitt am ähnlichsten ist. Die dieser ähnlichsten Ein hüllendenform entsprechenden Filterkoeffizienten werden als Koeffizienten des LPC-Synthesefilters verwendet.
  • Alle hier erwähnten Methoden sind prinzipiell für eine Erweiterung sowohl hoher als auch tiefer Frequenzbereiche verwendbar; es muss nur die Restsignalerweiterung so gestaltet werden, dass in den entsprechenden Bändern des Restsignals eine passende Anregung generiert wird.
  • So unterschiedlich die bekannten Algorithmen auch sind, sie weisen doch alle in mehr oder weniger starker Ausprägung sehr ähnliche Eigenschaften und Probleme auf.
  • Besonders problematisch scheint das Ziel eines ausgewogenen Zusammenspiels der neu generierten Signalkomponenten mit dem schmalbandigen Originalsignal zu sein. Durch fehlerhafte Amplituden der neuen Bandbereiche erhält der Hörer den Eindruck einer Sprachverzerrung, der sogar in eine Sprachverfremdung münden kann, wenn beispielsweise das Ausgangssignal "gelispelt" klingt.
  • Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen zu schaffen, die in der Lage sind, aus einem herkömmlich übertragenen Sprachsignal, das z.B. nur mit Telefonbandbreite vorliegt, mit Kenntnis der Mechanismen der Spracherzeugung und -wahrnehmung ein Sprachsignal zu erzeugen, das subjektiv eine größere Bandbreite und somit auch eine bessere Sprachqualität als das Originalsignal aufweist, wobei für ein solches System die Übertragungsstrecke an sich nicht modifiziert werden muß.
  • Die Erfindung schafft ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen gemäß Anspruch 1 bzw. 11.
  • Der Erfindung liegt die Idee zu Grunde, dass für die Analyse filterung und die Synthesefilterung identische Filterkoeffizienten verwendet werden.
  • Die erfindungsgemäße Grundstruktur des Algorithmus zur Bandbreitenvergrößerung kommt im Gegensatz zu den bekannten Verfahren mit nur einem einzigen breitbandigen Codebuch aus, welches im voraus trainiert wird.
  • Ein wesentlicher Vorteil dieses Algorithmus liegt darin, daß die Übertragungsfunktionen des Analyse- und Synthesefilters exakt invers zueinander sein können. Hierdurch kann die Transparenz des Systems bzgl. des Basisbandes, d.h. desjenigen Frequenzbereichs, in dem bereits im schmalbandigen Eingangssignal Komponenten enthalten sind, garantiert werden. Hierzu muß lediglich darauf geachtet werden, daß durch die Restsignalerweiterung die Anregungskomponenten des Basisbandes nicht modifiziert werden. Eine nicht-ideale Analysefilterung im Sinne einer optimalen linearen Prädiktion hat keine Auswirkung auf das Basisband, wenn Analyse- und Synthesefilter exakt invers zueinander sind.
  • Bei der bisher üblichen Verwendung unterschiedlicher Koeffizientensätze für die Analyse- und Synthesefilterung war es notwendig, das Ausgangssignal des Synthesefilters adaptiv an das schmalbandige Eingangssignal anzupassen, damit beide Signale im Basisband die gleiche Leistung aufweisen. Diese Notwendigkeit der adaptiven Schätzung und Anwendung der hierzu notwendigen Korrekturfaktoren entfällt beim Gegenstand der Erfindung vollständig. Artefakte und Fehler, die aus Fehlschätzungen der Korrekturfaktoren herrühren, können somit ebenfalls vermieden werden.
  • Bevorzugte Weiterbildungen sind Gegenstand der Unteransprüche.
  • Gemäß einer weiteren bevorzugten Weiterbildung liegt das abgetastete schmalbandige Sprachsignal im Frequenzbereich 300 Hz bis 3,4 kHz und das breitbandigere Sprachsignal im Frequenzbereich 50 Hz bis 7 kHz. Dies entspricht einer Erweiterung von Telefonbandbreite auf Breitbandsprache.
  • Gemäß einer weiteren bevorzugten Weiterbildung weist der Algorithmus zur Ermittlung der Filterkoeffizienten folgende Schritte auf:
    Aufstellen des Codebuchs unter Verwendung eines Hidden-Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Abhängigkeit vom Zustand beschreibt;
    Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor X(m) für einen jeweiligen Zeitabschnitt m;
    Vergleichen des Merkmalsvektors mit den statistischen Modellen; und
    Ermitteln der Filterkoeffizienten aufgrund des Vergleichsergebnisses.
  • Die ermittelten Merkmale können beliebige Größen sein, die aus dem schmalbandigen Sprachsignal berechnet werden können, z.B. Cepstralkoeffizienten, Rahmenenergie, Nulldurchgangsrate etc. Durch die freie Wählbarkeit der aus dem schmalbandigen Sprachsignal zu extrahierenden Merkmale können sehr flexibel verschiedene Eigenschaften des schmalbandigen Sprachsignals zur Bandbreitenerweiterung verwendet werden. Hierdurch wird eine sichere Schätzung der zu erweiternden Frequenzkomponenten ermöglicht.
  • Die statistische Modellierung des schmalbandigen Sprachsignals ermöglicht es weiterhin, bei der Bandbreitenerweiterung eine Aussage über die erreichbare Erweiterungsqualität zu treffen, da ausgewertet werden kann, wie gut die Übereinstimmung der Eigenschaften des schmalbandigen Sprachsignals mit dem jeweiligen statistischen Modell ist.
  • Gemäß einer weiteren bevorzugten Weiterbildung wird beim Vergleichen mindestens eine der folgenden Wahrscheinlichkeiten berücksichtigt:
    die Beobachtungswahrscheinlichkeit p(X(m)|Si) des Auftretens des Merkmalsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand Si befindet;
    die Übergangswahrscheinlichkeit, daß die Quelle für das abgetastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
    die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands.
  • Gemäß einer weiteren bevorzugten Weiterbildung wird zum Ermitteln der Filterkoeffizienten der Codebucheintrag Ci verwendet, für den die Beobachtungswahrscheinlichkeit p(X(m)|Si) maximal ist.
  • Gemäß einer weiteren bevorzugten Weiterbildung wird zum Ermitteln der Filterkoeffizienten der Codebucheintrag verwendet, für den die Verbundwahrscheinlichkeit p(X(m),Si) maximal ist.
  • Gemäß einer weiteren bevorzugten Weiterbildung erfolgt zum Ermitteln der Filterkoeffizienten eine direkte Schätzung der spektralen Einhüllenden durch die mit der a posteriori Wahrscheinlichkeit p(Si|X(m) gewichtete Mittelung aller Codebucheinträge.
  • Gemäß einer weiteren bevorzugten Weiterbildung wird die Beobachtungswahrscheinlichkeit durch ein Gauß'sches Mischmodell dargestellt.
  • Gemäß einer weiteren bevorzugten Weiterbildung wird in vorbestimmten Sprachabschnitten die Bandbreitenerweiterung deaktiviert. Dies ist dort zweckmäßig, wo von vorneherein eine fehlerhafte Bandbreitenerweiterung zu erwarten ist. So läßt sich verhindern, daß die Qualität des schmalbandigen Sprachsignals z.B. durch Artefakte verschlechtert anstatt verbessert wird.
  • Im folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Bezugnahme auf die Zeichnungen eingehender beschrieben.
  • Es zeigen:
  • 1 ein einfaches autoregressives Modell des Prozesses der Spracherzeugung sowie der Übertragungsstrecke;
  • 2 das technische Prinzip der Bandbreitenerweiterung nach Carl;
  • 3 die Frequenzgänge des Inversfilters und des Synthesefilters für zwei unterschiedliche Laute;
  • 4 eine erste Ausführungsform der Bandbreitenerweiterung gemäß der vorliegenden Erfindung;
  • 5 eine weitere Ausführungsform der Bandbreitenerwei terung gemäß der vorliegenden Erfindung;
  • 6 eine Gegenüberstellung der Frequenzgänge eines akustischen Front-End und eines Postfilters, das für Hörtests mit hochwertigeren Lautsprechersystemen verwendet wurde;
  • 7 ein Hidden-Markov-Modell des Spracherzeugungsprozesses für I = 3 mögliche Zustände;
  • 8 eindimensionale Histogramme für die Nulldurchgangsrate;
  • 9 zweidimensionale Scatterdiagramme zusammen mit den durch den GMM modellierten Verteilungsdichtefunktionen VDF;
  • 10 eine Illustration zur subjektiven Beurteilung von Sprachsignalen mit verschiedenen Bandbreiten, wobei fgu die untere und fgo die obere Bandgrenze darstellt; und
  • 11 typische Übertragungscharakteristiken zweier akustischer Front-Ends.
  • In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente.
  • Es sollen zunächst die technischen Randbedingungen der Bandbreitenerweiterung erläutert werden, die einerseits die Eigenschaften des Eingangssignals bestimmen sowie andererseits den Weg des Ausgangssignals bis zum Empfänger des Signals d.h. das menschliche Ohr definieren.
  • Der Teil, der vor dem Algorithmus angesiedelt ist, umfasst die gesamte Übertragungsstrecke vom Sprecher bis in das empfangene Telefongerät, d.h. insbesondere Mikrofon, und Analog- Digital-Umsetzer sowie die Übertragungsstrecke zwischen den beteiligten Telefongeräten.
  • Im Mikrofon wird das Nutzsignal in der Regel leicht verzerrt. Abhängig von der Anordnung und Position des Mikrofons relativ zum Sprecher sind in dem Mikrofonsignal neben dem Sprachsignal zusätzliche Hintergrundgeräusche, akustische Echos etc. enthalten.
  • Vor der Analog-Digital-Umsetzung des Mikrofonsignals wird dessen obere Grenzfrequenzdurch analoge Filterung auf maximal die halbe Abtastfrequenz begrenzt – bei der Abtastfrequenz von fa = 8 kHz beträgt die Bandbreite des digitalen Signals also maximal 4 kHz. Die durch die analoge Vorverarbeitung und Quantisierung hinzugefügten Verzerrungen und Störungen seien hierbei vernachlässigbar.
  • Bei der Betrachtung der Eigenschaften der Übertragungsstrecke müssen zwei Fälle unterschieden werden:
    • • Bei analoger Übertragung treten Störungen in der Form von Rauschen, Leitungsechos, Übersprechen etc. auf. Zusätzlich wird das Sprachsignal in der Regel für Multiplexstrecken auf den standardisierten Frequenzbereich von 300 Hz bis 3400 Hz bandbegrenzt.
    • • Erfolgt die Übertragung des Signals hingegen in digitaler Technik, so kann sie im Idealfall als transparent angenommen werden (z.B. im ISDN-Netz). Wird das Signal jedoch zur Übertragung codiert, z.B. für eine Mobilfunkstrecke, so können sowohl nichtlineare Verzerrungen als auch additives Quantisierungsrauschen auftreten. Weiterhin wirken sich in diesem Fall Übertragungsfehler mehr oder weniger stark aus.
  • Basierend auf den beschriebenen Systemeigenschaften werden im weiteren die folgenden Eigenschaften für das Eingangssignal angenommen
    • • Das Sprachsignal ist bandbegrenzt. Die übertragene Bandbreite reicht nach oben im Bestfall bis zu einer Grenzfrequenz von 4 kHz, in der Regel jedoch nur bis etwa 3,4 kHz. Die Beschneidung der Bandbreite zu tiefen Frequenzen hin hängt von der Übertragungsstrecke ab und kann im Extremfall bei circa 300 Hz erfolgen.
    • • Abhängig von der Position des Mikrofons relativ zum Sprecher und von der akustischen Situation auf der Sendeseite sind im Eingangssignal additive Hintergrundstörungen verschiedener Art zu erwarten.
    • • Das Sprachsignal kann mehr oder weniger stark verzerrt sein. Diese Verzerrungen hängen von der Übertragungsstrecke ab und können sowohl linearer als auch nichtlinearer Natur sein.
  • Aus Sicht des Eingangssignals ist eine Erweiterung zu hohen Frequenzen hin in jedem Fall sinnvoll. Tiefe Frequenzen hingegen sind in einigen Fällen bereits im Eingangssignal vorhanden und müssten dann nicht mehr künstlich ergänzt werden; andernfalls ist auch in diesem Bereich eine Bandbreitenerweiterung sinnvoll. Bei dem Entwurf des Algorithmus zur Bandbreitenerweiterung sollten mögliche Verzerrungen und Störungen berücksichtigt werden, damit eine robuste Lösung erreicht werden kann.
  • Das Ausgangssignal des Algorithmus zur Bandbreitenerweiterung wird im wesentlichen ins Analoge umgesetzt, durchläuft dann einen Leistungsverstärker und wird schließlich einem akustischen Front-End zugeführt.
  • Die Digital-Analog Umsetzung kann im Rahmen der Bandbreitenerweiterung als ideal angenommen werden. Der nachfolgende analoge Leistungsverstärker kann dem Signal linare und nichtlineare Verzerrungen zufügen.
  • Der Lautsprecher weist bei handelsüblichen Handapparaten und Freisprechgeräten aus optischen und Kostengründen meist eine recht kleine Bauform auf. Dementsprechend klein ist auch die akustische Leistung, die im linearen Arbeitsbereich des Lautsprechers abgestrahlt werden kann und die Gefahr der Übersteuerung und der dadurch bewirkten nichtlinearen Verzerrungen ist groß. Weiterhin treten lineare Verzerrungen auf, die auch zu einem großen Teil von der akustischen Umgebung abhängen. Insbesondere bei Handapparaten hängt die Übertragungscharakteristik des Lautsprechers stark von der Haltung und Andruckkraft des Hörers an das Ohr ab.
  • In 11 sind exemplarisch die typischen Frequenzgänge der gesamten Ausgangsübertragungsstrecke (d.h. inkl. Digital-Analog-Wandlung, Verstärkung und Lautsprecher) für einen Telefonhörer sowie für den Lautsprecher eines Freisprechtelefons dargestellt. Für diese qualitativen Messungen wurden die einzelnen Komponenten nicht übersteuert; Nichtlinearitäten gehen daher nicht in die Ergebnisse ein.
  • Die starken linearen und nichtlinearen Verzerrungen, die durch das akustische Front-End bewirkt werden, schränken den möglichen Arbeitsbereich einer Bandbreitenerweiterung ein:
    • • Eine Erweiterung nach unten scheint sich kaum zu lohnen, da übliche Front-Ends diese tiefen Frequenzen ohnehin nicht übertragen können. Leistungsreiche tieffrequente Sprachkomponenten bewirken eher eine Verschlechterung des akustischen Signals, da sie zu einer verstärkten Übersteuerung des Systems führen, so dass die Sprache "scheppernd" klingt. Bei Handapparaten wird die Übertragungsbandbreite des Front-End zu tiefen Frequenzen zusätzlich durch ein "akustisches Leck" begrenzt, das durch eine sub-optimale Abdichtung der Ohrmuschel durch den Telefonhörer entsteht. Das Ausmaß dieses Lecks hängt massgeblich von der Andruckkraft des Hörers ab und kann in gewissen Grenzen vom Teilnehmer kontrolliert werden.
    • • Im Gegensatz hierzu erscheint eine Erweiterung von Sprachsignalen zu hohen Frequenzen hin durchaus möglich zu sein. Auch hier sollten allerdings die Eigenschaften des Lautsprechers berücksichtigt werden, da es keinen Sinn macht, eine Vergrößerung der Bandbreite bis beispielsweise 8 kHz anzustreben, wenn schon bei 7 kHz das Signal um über 20 dB gedämpft wird.
  • Die oben beschriebenen Einschränkungen gelten natürlich nur für Systeme mit den beschriebenen Eigenschaften. Sobald akustische Front-Ends mit verbesserten Eigenschaften eingesetzt werden, wachsen auch die Möglichkeiten einer künstlichen Bandbreitenerweiterung – insbesondere einer solchen, die tiefe Frequenzkomponenten ergänzt.
  • Durch die Vergrößerung der Bandbreite von Sprachsignalen wird mit der Bandbreitenerweiterung primär eine höhere subjektiv empfundene Sprachqualität angestrebt. Aus der höheren Sprachqualität folgt ein entsprechend größerer Komfort für den Anwender des Telefons. Ein weiteres Ziel ist die Erhöhung der Sprachverständlichkeit.
  • Bei der Entwicklung eines Algorithmus zur Bandbreitenerweiterung sollten daher die folgenden Aspekte stets berücksichtigt werden.
  • Die subjektive Qualität eines Sprachsignals darf durch Bandbreitenerweiterung auf keinen Fall verschlechtert werden. In diesem Zusammenhang sind mehrere Teilaspekte relevant.
  • Das Basisband, d.h. der Frequenzbereich, der bereits im Eingangssignal vorhanden ist, sollte möglichst gegenüber dem Eingangssignal keine Modifikationen oder Verzerrungen erfahren, da das Eingangssignal in diesem Band bereits die bestmögliche Signalqualität liefert.
  • Die synthetisch hinzugefügten Sprachkomponenten müssen zu den im schmalbandigen Eingangssignal vorhandenen Signalanteilen passen. Gegenüber einem ensprechenden breitbandigen Sprachsignal dürfen also auch in diesen Frequenzbereichen keine starken Signalverzerrungen erzeugt werden. Als solche Verzerrungen sind auch Veränderungen des Sprachmaterials anzusehen, die eine Identifizierung des Sprechers erschweren.
  • Schließlich darf das Ausgangssignal möglichst keine künstlich klingenden Artefake beinhalten.
  • Die Robustheit ist ein weiteres Kriterium, wobei unter Robustheit hier verstanden werden soll, dass der Algorithmus zur Bandbreitenerweiterung für Eingangssignale mit variierenden Eigenschaften anhaltend gute Ergebnisse liefert. Insbesondere soll das Verfahren sprecherunabhängig sein und für verschiedene Sprachen funktionieren. Weiterhin muss damit gerechnet werden, dass das Eingangssignal additive Störungen enthält oder beispielsweise durch eine Codierung oder Quantisierung verzerrt wurde.
  • Wenn die Eigenschaften des Eingangssignals zu weit von den spezifizierten Vorgaben abweichen, sollte der Algorithmus die Bandbreitenerweiterung deaktivieren, damit auf keinen Fall die Qualität des Ausgangssignals zu stark verschlechtert wird.
  • Bandbreitenerweiterung ist nicht in allen Situationen und für alle Signalarten machbar. Die Möglichkeiten werden einerseits durch die Beschaffenheit der physikalischen Umgebung sowie andererseits duch die Eigenschaften der Signalquelle, d.h. für Sprachsignale des Spracherzeugungsprozesses beschränkt.
  • Eine deutliche Grenze wird der Bandbreitenerweiterung durch die Eigenschaften des akustischen Front-End gezogen. Die Übertragungseigenschaften typischer Lautsprecher in handelsüblichen Telefonapparaten ermöglichen es kaum, tiefe Frequenzen bis in den Bereich der Sprachgrundfrequenz herunter abzustrahlen.
  • Eine Extrapolation von Frequenzkomponenten ist nur dann möglich, wenn sie anhand eines Modells der Signalquelle vohergesagt werden können. Die Beschränkung auf die Behandlung von Sprachsignalen bedeutet, dass zusätzliche Signalkomponenten, die durch die tief- oder Bandpaßfilterung des breitbandigen Originalsignals verloren gegangen sind (z.b. akustische Effekte wie Hall oder hochfrequente Hintergrundgeräusche) i.a. nicht rekonstruiert werden können.
  • Im folgenden ist auf folgende Konvention zu achten:
    • • Es werden häufig Signale mit den beiden Abtastraten fa = 8 kHz sowie fa' = 16 kHz definiert. Um eine einfache Unterscheidung zu ermöglichen, werden alle Zeit- und Frequenzindizes, die sich auf die höhere Abtastrate fa' beziehen, mit einem Hochkomma versehen. Ein Signal x(k) wäre beispielsweise mit 8 kHz abgetastet, während das Signal y(k') mit 16 kHz abgetastet ist.
    • • Bei Signalen, bei denen die Bandbreite eindeutig ist, wird diese durch ein tiefgestelltes nb für schmalbandig oder wb für breitbandig gekennzeichnet. Zu beachten ist, dass schmalbandige Signale (mit nb markiert) auch mit der hohen Abtastrate fa' kombiniert werden können.
  • Als Ausgangspunkt der beschriebenen Ausführungsform der Erfindung wird der Algorithmus von Carl (H. Carl, „Untersuchung verschiedener Methoden der Sprachcodierung und eine Anwendung zur Bandbreitenvergrößerung von Schmalband-Sprachsignalen", Dissertation, Ruhr-Universität Bochum, 1994) gewählt.
  • Zunächst wird die Erzeugung neuer Sprachsignalkomponenten beschrieben. Die Basis für sämtliche hier beschriebenen Methoden besteht in einem einfachen autoregressiven (AR) Modell des Spracherzeugungsprozesses. Die Signalquelle setzt sich bei diesem Modell aus nur zwei zeitvarianten Teilsystemen zusammen, wie in 1 dargestellt.
  • Das aus dem ersten Anregungserzeugungsteil AE (entsprechend der Lunge und den Stimmbändern) resultierende Anregungssignal xwb(k') ist nach den Modellvorstellungen spektral flach und weist bei stimmlosen Lauten eine rauschartige Charakteristik auf, während es bei stimmhaften Lauten eine harmonische Pitchstruktur besitzt.
  • Durch den zweiten Teil des Modells wird der Vokaltrakt bzw. Sprachtrakt ST (Mund- und Rachenraum) als ein rein rekursives Filter 1/A(z') modelliert. Dieses Filter prägt dem Anregungssignal xwb(k') die grobe spektrale Struktur auf.
  • Durch die Variation der Parameter ΘAnregung und ΘSprachtrakt der beiden Teilsysteme entsteht das zeitvariante Sprachsignal swb(k'). Die Übertragungsstrecke wird durch ein einfaches zeitinvariantes Tiefpass- bzw. Bandpassfilter TP mit der Übertragungsfunktion HÜS(z') modelliert. Das resultierende schmalbandige Sprachsignal, wie es dem Algorithmus zur Bandbreitenerweiterung zur Verfügung steht, ist snb(k), das in der Regel nach einer Reduktion der Abtastfrequenz RA um den Faktor 2 mit einer Abtastrate von fa = 8 kHz vorliegt.
  • Der erste Schritt bei der Bandbreitenerweiterung besteht in einer Segmentierung des Eingangssignals snb(k) in Rahmen mit einer Länge von jeweils K Abtastwerten (z.B. K = 160). Sämtliche nachfolgenden Schritte und Teilalgorithmen werden durchweg rahmenbezogen durchgeführt. Ein Signalrahmen bei erhöhter Abtastfrequenz fa' = 16 kHz hat die doppelte Länge K' = 2K.
  • Anschließend wird nun, motiviert durch das einfache Modell des Spracherzeugungsprozesses, zunächst das Eingangssignal snb(k) in die beiden Komponenten Anregung und spektrale Einhüllendenform aufgespalten. Diese beiden Komponenten können anschließend unabhängig voneinander bearbeitet werden, wobei die genaue Arbeitsweise der hierzu eingesetzten Teilalgorithmen an dieser Stelle zunächst noch nicht definiert werden muss – eine detaillierte Beschreibung folgt später.
  • Die Aufspaltung des Eingangssignals kann in verschiedenen Varianten durchgeführt werden. Da die gewählten Varianten unterschiedliche Einflüsse auf die Transparenz des Systems im Basisband hat, werden sie erst nachfolgend detailliert einander gegenübergestellt.
  • Die prinzipielle Vorgehensweise sieht so aus, dass das Eingangssignal durch ein adaptives Filter HI(z) spektral flacher, also "weißer" gemacht wird. Nachdem die so berechnete Schätzung xx ^nb(k) des schmalbandigen Anregungssignals spektral erweitert wurde (Restsignalerweiterung), dient sie als Eingangssignal eines spektralen Gewichtungsfilters HS(z'), mit dessen Hilfe dem nun breitbandigen Restsignal x ^wb(k') die inzwischen ebenfalls erweiterte, d.h. breitbandige spektrale Einhüllendenform aufgeprägt wird, wie in 2 dargestellt.
  • Eine Forderung an Algorithmen zur Bandbreitenerweiterung besteht darin, dass Signalkomponenten, die schon im Eingangssignal vorhanden sind, abgesehen von einer Signalverzögerung τ, durch das System nicht verzerrt oder modifiziert werden, d.h. es soll gelten
    Figure 00220001
  • Dieses Ziel kann näherungsweise auf verschiedene Weisen erreicht werden, die in nachfolgend erläutert werden sollen. Exemplarisch soll die Erweiterung der spektralen Einhüllenden durch ein Codebuch-Verfahren erfolgen.
  • Als nächstes wird die Mischung mit dem Eingangssignal beschrieben.
  • Die erste bekannte Variante gemäß 2 sieht vor, dass das schmalbandige Eingangssignal snb(k) hierbei zunächst einer LPC-Analyse (Linear Predictive Coding, siehe z.B. J.D. Markel, A.H. Gray, „Linear Prediction of Speech", Springer-Verlag, 1976) in der Einrichtung LPCA unterzogen wird.
  • Bei der LPC-Analyse werden für einen Sprachrahmen s (m) / nb(κ) die Filterkoeffizienten a ~nb(κ) eines nicht-rekursiven Prädiktionsfilters A ~(z) in solcher Weise optimiert, dass die Leistung des Ausgangssignals xnb(κ)= s (m) / nb(κ)·a ~nb(κ) dieses Prädiktionsfilters minimal wird ε{(xnb(κ))2} → min.
  • Diese Leistungsminimierung führt dazu, dass das Frequenzspektrum des Restsignals xnb(κ) flacher bzw. "weißer" wird als das Frequenzspektrum des Ursprungssignals snb(k). In den Filterkoeffizienten a ~nb(κ) steckt die Information über die spektrale Einhüllende des Eingangssignals. Für die Berechnung der optimierten Filterkoeffizienten a ~nb(κ) wird z.B. der Levinson-Durbin-Algorithmus verwendet.
  • Die durch die LPC-Analyse LPCA ermittelten Filterkoeffizienten A ^nb(z) dienen als Parameter für ein Inversfilter IR HI(z) = A ^nb(z),in das das schmalbandige Sprachsignal eingegeben wird – das Ausgangssignal x ^nb(k) dieses Filters ist dann die gesuchte spektral flache Schätzung des Anregungssignals und liegt in schmalbandiger Form, d.h. mit der geringen Abtastrate fa = 8 kHz vor. Nachdem nun einerseits das Restsignal im Block Restsignalerweiterung RE und andererseits die LPC-Koeffizienten im Block Einhüllendenerweiterung EE spektral erweitert wurden, können sie als Eingangssignal x ^wb(k') bzw. Parameter Awb(z') für das nachfolgende Synthesefilter SF
    Figure 00240001
    verwendet werden.
  • Da durch die beschriebene Vorgehensweise mittels LPC-Analyse die Schätzung x ^nb(k) des bandbegrenzten Anregungssignals die Forderung nach spektraler Flachheit sehr gut erfüllt, ist bei dieser ersten Variante eine gute Formung der neu synthetisierten Bandbereiche möglich; die groben spektralen Strukturen in diesen Bereichen hängen bei weißem Restsignal primär von den Vorgaben der Einhüllendenerweiterung ab.
  • Auf das Basisband hingegen wirkt sich das Verfahren eher negativ aus. Da für das Inversfilter HI(z) und das nachfolgende Synthesefilter HS(z'), je nach Einhüllendenerweiterung, Filterkoeffizienten eingesetzt werden, die nicht ideal invers zueinander sind, wird die Einhüllendenform im Basisbandbereich in der Regel mehr oder weniger stark verzerrt. Wird beispielsweise die Einhüllendenerweiterung durch ein Codebuch durchgeführt, so entspricht das Ausgangssignal s ~wb(k') des Systems im Basisband einer Variante des Eingangssignals snb(k), bei der die Einhüllendeninformation vektorquantisiert wurde.
  • Da diese, teilweise signifikanten, Verzerrungen des Basisbandsignals nicht akzeptiert werden können, müssen die verschiedenen Frequenzanteile des Ausgangssignals separat behandelt und am Ausgang des Systems gemischt werden.
    • • Das durch die oben beschriebene Weise bandbreitenerweiterte Signal wird durch ein Bandstopfilter BS mit der Funktion HBS(z') von allen Frequenzanteilen, die innerhalb des Basisbandes liegen, befreit. Das Bandstopfilter BS muss also einen Frequenzgang aufweisen, der an die Charakteristik des Übertragungskanals und damit des Eingangssignals angepasst ist, d.h. es sollte möglichst die Übertragungsfunktion HBS(z') = 1 – HÜS(z')besitzen.
    • • Das schmalbandige Eingangssignal wird zunächst durch das Einfügen von Nullwerten und evtl. eine Tiefpassfilterung auf die erhöhte Abtastrate am Ausgang des Systems interpoliert. Anschließend werden durch ein Bandpassfilter BP mit der Funktion HBP(z') wiederum alle Signalkomponenten, die außerhalb des Basisbandes liegen, entfernt, d.h. HBP(z') = HÜS(z').
    • Das bei der Interpolation verwendete Filter kann in der Regel entfallen, da die Aufgabe der Anti-Aliasing-Filterung durch den Bandpass BP übernommen werden kann.
  • Die Mischung der beiden Teilsignale snb(k') und s ~nb(k') erfolgt am Ausgang des Systems durch eine einfache Additionseinrichtung ADD. Damit bei dieser Addition keinerlei Fehler auftreten, ist es wichtig, dass die beteiligten Teilsignale korrekt aneinander angepasst werden.
  • Um grobe Phasenfehler zu vermeiden, ist es notwendig, die beiden parallelen Signalpfade sorgfältig in der Laufzeit einander anzugleichen. Dies kann durch ein einfaches Verzögerungsglied erfolgen, das in denjenigen der beiden Pfade eingefügt wird, der die geringere algorithmische Verzögerung bewirkt. Die Laufzeit dieses Verzögerungsgliedes muss so eingestellt werden, dass die Gesamtlaufzeiten beider Signalpfade exakt gleich sind.
  • Weiterhin ist eine Abstimmung der Leistungen der beiden Teilsignale snb(k') und s ~wb(k') für die Qualität des Ausgangssignals s ^wb(k') von entscheidender Bedeutung. Durch die Bandbreitenerweiterung kann an verschiedenen Stellen die Leistung des Signals beeinflusst werden; dem Verhältnis der Leistungen im Basisband und in den synthetisierten Bereichen muss daher Beachtung geschenkt werden. Diese zunächst einfach klingende Aufgabe kann in zwei Teilprobleme aufgespalten werden:
    • • Der Block Restsignalerweiterung muss in solcher Weise arbeiten, dass trotz der Erhöhung der Abtastrate die Leistung des Basisbandes im Ausgangssignal exakt der Leistung des Eingangssignals entspricht.
    • • Durch die Invers- und Synthesefilterung mit nicht exakt zueinander inversen Filtern entsteht in der Regel eine Leistungsveränderung des Signals, die von den Frequenzgängen der beiden Filter abhängt. Dieser Umstand soll anhand 3 verdeutlicht werden. In 3 dargestellt sind für zwei unterschiedliche Laute (stimmhaft und stimmlos) die Frequenzgänge des zugehörigen Inversfilters HI(z) sowie des Synthesefilters Hs(z') jeweils innerhalb eines Koordinatensystems dargestellt. Entsprechend ihrer Aufgabe sind die Filter so entworfen, dass sie lediglich die Einhüllendenform verändern. Die Stoßantworten h(k) sind daher so normiert, dass der erste Filterkoeffizient jeweils den Wert h(0) = 1 besitzt. Im Frequenzbereich drückt sich diese Tatsache so aus, dass der Frequenzgang H(e) jedes Filters vertikal so verschoben ist, dass das Integral über den gesamten Frequenzbereich einem festen Wert entspricht, wie anhand der Vorschrift für die Fourier-Transformation leicht nachvollzogen werden kann
      Figure 00260001
      Wenn nun die Frequenzgänge eines Paares aus zusammengehörigen Invers- und Synthesefiltern betrachtet werden, so kann beobachtet werden, dass im Basisband eine Differenz zwischen breit- und schmalbandigem Filter besteht. Die Größe dieser Differenz hängt von den Frequenzgängen der beiden Filter ab und lässt sich nicht auf einfache Weise vorhersagen. Die Differenz führt dazu, dass sich bei der Verkettung eines solchen Filterpaares eine Leistungsveränderung im Basisband ergibt: Bei den dargestellten Beispielfrequenzgängen würde sich bei dem stimmhaften Laut die Leistung im Basisband erhöhen, während sie bei dem stimmlosen Laut abgesenkt würde. Wird nun ohne weitere Maßnahme das Original-Basisbandsignal snb(k) mit den so erstellten Erweiterungen gemischt, gerät (durch den gleichen Mechanismus) die Abstimmung zwischen den beiden Komponenten durcheinander. Als Gegenmaßnahme muss das bandbreitenerweiterte Signal s ~wb(k') mit einem Korrekturfaktor ζ multipliziert werden, der diese Leistungsmodifikation wieder ausgleicht. Ein solcher Korrekturfaktor hängt von der Form der Frequenzgänge eines Filterpaares ab und lässt sich somit nicht fest vorgeben. Insbesondere durch die hier verwendete LPC-Analyse ergibt sich die Schwierigkeit, dass der Frequenzgang des Inversfilters HI(z) nicht a priori bekannt ist. Es kann jedoch die Leistung der Basisbandkomponenten des bandbreitenerweiterten Signals s ~wb(k') mit der Leistung des interpolierten Eingangssignals snb(k') verglichen werden. Dieses Verhältnis muss für eine korrekte Abstimmung der Signalanteile zu Eins werden
      Figure 00270001
      so das sich der Korrekturfaktor ζ aus der Wurzel des Kehrwertes dieses Leistungsverhältnisses bestimmen lässt
      Figure 00280001
      Die Bestimmung eines Korrekturfaktors durch diese Vorschrift bedingt eine zusätzliche Filterung des bandbreitenerweiterten Signals s ~wb(k') mit einem Bandpassfilter, dessen Übertragungsfunktion derjenigen der Übertragungsstrecke HÜS(z') entspricht.
  • Eine Vereinfachung gegenüber der zuvor beschriebenen Variante lässt sich erreichen, indem auf die dort notwendige, anfängliche LPC-Analyse verzichtet wird. Das Blockschaltbild des daraus resultierenden Ausführungsbeispiels der Erfindung ist in 4 illustriert.
  • Die Parameter des ersten LPC-Inversfilter IF mit der Funktion HI(z) werden nun nicht mehr durch eine LPC-Analyse des Eingangssignals snb(k) vorgegeben, sondern – ebenso wie die Parameter des Synthesefilters HS(z') – durch die Einhüllendenerweiterung EE. In diesem Block kann nun eine Abstimmung der beiden Parametersätze A ^nb(z) und A ^wb(z') aufeinander erfolgen, d.h. die Qualität der Inversfilterung wird etwas reduziert auf Kosten einer besseren Übereinstimmung der Frequenzgänge von Invers- und Synthesefilter im Basisband. Eine mögliche Realisierung kann z.B. in der Verwendung parallel erstellter, aber separater Codebücher für die Parameter der beiden Filter liegen. Es werden dann aus beiden Codebüchern zu einer Zeit immer nur Einträge mit identischem Index i eingesetzt, die beim Training in entsprechender Weise aufeinander abgestimmt wurden.
  • Der Zweck der Abstimmung der Parameter des Filterpaares HI(z) und HS(z') besteht darin, im Basisband eine größere Transpa renz zu erreichen. Dadurch, dass Invers- und Synthesefilter nun im Basisband annähernd invers zueinander sind, werden Fehler, die bei der Inversfilterung IF entstehen, durch das nachfolgende Synthesefilter SF wieder behoben. Wie erwähnt, sind die Filterpaare jedoch auch bei dieser Struktur nicht perfekt invers zueinander; leichte Differenzen lassen sich durch die unterschiedlichen Abtastraten, bei denen die Filter arbeiten, sowie durch die deswegen notwendigen voneinander abweichenden Filterordnungen nicht vermeiden. Die Folge ist, dass das Sprachsignal s ^w b(k') im Basisband gegenüber der ersten Variante verzerrt wird.
  • Eine weitere Fehlerquelle liegt darin, dass das Restsignal x ^nb(k) des Inversfilters HI(z) nicht weiter in allen Frequenzbereichen weiß ist. Dies erfordert entweder eine ausgeklügelte Restsignalerweiterung oder führt zu Fehlern in den neu generierten Frequenzbereichen.
  • Als Vorteil dieser Ausführungsform lassen sich einige Einsparungen verbuchen:
    • • Zunächst fallen die Bandstop- und Bandpassfilter HBS(z') und HBP(z') weg, die bei der ersten Variante notwendig waren, um die Transparenz im Basisband zu gewährleisten. Mit ihnen entfällt auch die notwendige Rechenleistung sowie die durch die Filter erzeugte Signalverzögerung.
    • • Weiterhin ist die Anpassung der Signalleistungen erheblich weniger aufwendig. Fehler der Signalleistung wirken sich hier nur in der Gesamtleistung des Ausgangssignals aus und würden einem Hörer erst im Vergleich mit dem schmal- oder breitbandigen Originalsignal auffallen.
    • • Auch bei dieser Variante werden das Invers- und das Synthesefilter mit unterschiedlichen Abtastraten betrieben. Hieraus resultiert, wie schon bei der ersten Variante, die Notwendigkeit eines Korrekturfaktors ζ, da sonst ab hängig von dem momentan gesprochenen Laut die Signalleistung variiert. Die Ermittlung eines solchen Faktors ist in diesem Fall jedoch erheblich einfacher, da die Frequenzgänge der Filterpaare schon im Voraus bekannt sind. Der zu dem i-ten Filterpaar
      Figure 00300001
      und
      Figure 00300002
      eines Codebuches zu erwartende Korrekturfaktor ζi kann daher auch schon im Voraus berechnet werden und beispielsweise im Codebuch abgelegt werden.
  • Eine weitere alternative Ausführungsform der Erfindung ist in 5 skizziert. Gegenüber der ersten Ausführungsform ergibt sich zwar kaum eine Veränderung der erforderlichen Rechenleistung, aber die Modifikationen haben einen deutlichen Einfluss auf die Qualität des Ausgangssignals.
  • Im Gegensatz zu der ersten Ausführungsform werden bei der hier vorgestellten Struktur sowohl das Inversfilter HI(z') als auch das Synthesefilter HS(z') mit der gleichen Abtastrate von fa' = 16 kHz betrieben. Dies ermöglicht es, die Filterkoeffizienten so einzustellen, dass die beiden Filter exakt invers zueinander sind, d.h. es gilt
    Figure 00300003
  • Durch dieses Verhalten kann einerseits die geforderte Eigenschaft der Transparenz im Basisband erheblich besser gewährleistet werden, da nun sämtliche Fehler, die durch die Inversfilterung im Basisband erzeugt werden, im Synthesefilter wieder rückgängig gemacht werden. Auf der anderen Seite kann wegen dieser Maßnahme bei der Entwicklung des Algorithmus zur Einhüllendenerweiterung eine weniger aufwendige Lösung gewählt werden.
  • Ein signifikanter Vorteil der Verwendung exakt zueinander inverser Filter besteht außerdem darin, dass nun keinerlei Leistungsanpassung durch Korrekturfaktoren ζ mehr notwendig ist.
  • Bezüglich der Qualität der neu synthetisierten Frequenzanteile bestehen die gleichen geringfügigen Einschränkungen wie bei der ersten Ausführungsform. Die Tatsache, dass das Restsignal xx ^nb(k') des Inversfilters nun mit hoher Abtastrate vorliegt, muss bei der Restsignalerweiterung berücksichtigt werden, erfordert aber keine prinzipiellen Veränderungen dieses Teilalgorithmus. Es muss jedoch beachtet werden, dass im Restsignal xx ^nb(k') lediglich Anregungskomponenten im Bereich des Basisbandes vorhanden sind.
  • Die zweite Ausführungsform setzt voraus, dass das Eingangssprachsignal snb(k') zwar in bandbegrenzter Form, aber mit einer erhöhten Abtastrate von fa' = 16 kHz vorliegt. Bei einer digitalen Übertragungsstrecke muss daher in der Regel vor der Bandbreitenerweiterung eine Interpolationsstufe eingefügt werden. Abhängig von der Bandbegrenzung des Sprachsignals sind die Anforderungen an den Interpolationstiefpass allerdings vergleichsweise gering. In der Regel weist das Sprachsignal schon eine geringe obere Grenzfrequenz (z.B. von 3.4 kHz) auf, so dass der Übergangsbereich des Filters recht breit sein darf (in dem Beispiel darf die Breite 1.2 kHz betragen). Außerdem ist ein geringes Ausmaß von Aliasing-Effekten im allgemeinen zu tolerieren, solange sie gegenüber den durch die Bandbreitenerweiterung erzeugten Effekten vernachlässigbar sind. Nichtsdestotrotz bringt auch ein kurzes Interpolationsfilter immer den Nachteil einer Signalverzögerung mit sich.
  • Jetzt sollen verschiedene Maßnahmen erläutert werden, die die subjektiv wahrgenommene Qualität des bandbreitenerweiterten Signals s ^wb(k') verbessern sollen. Diese einfachen Modifikationen der Algorithmen sind von der speziellen Ausführung der Teilalgorithmen zur Restsignal- und Einhüllendenerweiterung weitgehend unabhängig.
  • Bei einigen Lautübergängen lassen sich an Grenzen zwischen zwei Rahmen Knackgeräusche wahrnehmen. Diese Artefakte entstehen durch das abrupte Umschalten zwischen zwei stark unterschiedlichen Einhüllendenformen. Der Effekt ist daher insbesondere dann dominant, wenn ein Codebuch mit geringer Größe I eingesetzt wird, da sich Lautübergänge weniger fein modellieren lassen, je stärker sich die einzelnen Einträge des Codebuchs voneinander unterscheiden.
  • Eine oft gegen solche Fehler eingesetzte Methode (z.B. in der Sprachcodierung) besteht darin, jeden Sprachrahmen (z.B. mit 10 ms Dauer) in mehrere Unterrahmen (Dauer z.B. 2.5 oder 5 ms) zu unterteilen und die für diese Unterrahmen verwendeten Filterkoeffizienten A ^nb(z) bzw. A ^wb(z') durch eine Interpolation oder Mittelung der für die Nachbarrahmen ermittelten Filterkoeffizienten zu berechnen. Für eine Mittelung ist es vorteilhaft, die Filterkoeffizienten in eine LSF-Darstellung zu überführen, da bei einer Interpolation in dieser Beschreibungsform die Stabilität der resultierenden Filter garantiert werden kann. Eine Interpolation der Filterparameter bringt den Vorteil mit sich, dass die insgesamt realisierbaren Einhüllendenformen sehr viel zahlreicher werden, als die ansonsten durch die Größe I des Codebuchs fest vorgegebene grobe Unterteilung.
  • Die Grundlage für den Ansatz der Mittelung von Filterkoeffizienten besteht in der Beobachtung, dass der menschliche Sprachtrakt eine gewisse Trägheit besitzt, d.h. sich nur in endlich kurzer Zeit auf einen neuen Sprachlaut umstellen kann.
  • Für die Aneinanderkettung der für die Unterrahmen berechneten Ausgangswerte wurden mehrere Möglichkeiten untersucht:
    • • Die naheliegendste Lösung besteht darin, aneinanderstoßende Unterrahmen zu verwenden. Ein Sprachrahmen wird dabei in nicht überlappende Unterrahmen zerlegt, die getrennt voneinander prozessiert und am Schluss wieder aneinandergekettet werden. Bei dieser Variante müssen die Filterzustände von Inversfilter HI(z) und Synthesefilter HS(z') jeweils an den nachfolgenden Unterrahmen weitergegeben werden.
    • • Lässt man zu, dass die einzelnen Unterrahmen einander teilweise überlappen, so muss bei der Zusammensetzung der Unterrahmen zum Ausgangssignal eine Overlap Add Technik zum Einsatz kommen. Das für jeden Unterrahmen berechnete Ausgangssignal wird daher zunächst mit einer Fensterfunktion (z.B. Hamming) gewichtet und anschließend in den überlappenden Bereichen mit den entsprechenden Bereichen der Nachbarrahmen addiert. Bei dieser Variante dürfen die Filterzustände nicht von einem zum nächsten Unterrahmen weitergegeben werden, da sich die Zustände nicht auf das gleiche, fortgesetzte Signal beziehen.
  • Weiterhin wurden Untersuchungen bezüglich der optimalen Einflusslänge der Interpolation durchgeführt. Hierbei wurde die Zahl der benachbarten Sprachrahmen, aus denen jeweils ein neuer Filterparametersatz berechnet wurde, im Bereich von 2 (d.h. Mittelung ausschließlich aus den direkten Nachbarn) bis 10 variiert.
  • Je größer das Interpulationsfenster gewählt wird, desto stärker werden Artefakte und Fehler gemildert, die durch eine fehlerhafte Zuordnung bei der Einhüllendenerweiterung erzeugt werden. Andererseits wird die Qualität des Ausgangssignals bei einigen schnellen Lautübergängen verschlechtert. Die Zahl der für die Mittelung herangezogenen Nachbarrahmen sollte daher möglichst klein gehalten werden.
  • Die besten Ergebnisse wurden mit einer Variante gefunden, bei der für die Unterrahmen die ursprüngliche Rahmengröße K' bei behalten wird, aber jeder Sprachrahmen in zwei Unterrahmen unterteilt wird, die also um jeweils die halbe Rahmengröße K'/2 mit den beiden Nachbarunterrahmen überlappen. Die Berechnung des Ausgangssignals s ^wb(k') wird dann mit dem Overlap Add Verfahren durchgeführt. Durch diese Maßnahme verschwinden die knackenden Artefakte völlig.
  • Zur Steuerung des Ausmaßes der Bandbreitenerweiterung kann dem Algorithmus als letzte Stufe ein Filter HPF(z') nachgeschaltet werden, das im folgenden als Postfilter bezeichnet wird. Hier wurde das Postfilter durchweg als Tiefpassfilter realisiert.
    • • Die obere Grenzfrequenz des Ausgangssignals s ^wb(k') kann durch ein steilflankiges Tiefpassfilter mit fester Grenzfrequenz definiert werden. Ein solches Filter mit einer Grenzfrequenz von 7 kHz beispielsweise hat sich als nützlich erwiesen, um tonale Artefakte zu verringern, die bei einer spektralen Spiegelung aus den leistungsstarken tiefen Sprachfrequenzen entstehen. Insbesondere hochfrequentes Pfeifen bei der Nyquistfrequenz fa'/2, das (je nach eingesetztem Verfahren zur Restsignalerweiterung) aus einem Gleichanteil des Eingangssignals snb(k) resultieren kann, wird wirkungsvoll unterdrückt.
    • • Artefakte und Störungen, die über einen weiten Bereich der neu synthetisierten Frequenzkomponenten verteilt sind, können wirkungsvoll mit Hilfe eines Tiefpassfilters kontrolliert werden, welches eine nur langsame Zunahme der Dämpfung zu hohen Frequenzen hin bewirkt. Es kann beispielsweise ein einfaches FIR Filter achter Ordnung eingesetzt werden, das bei 4.8 kHz eine Dämpfung von 6 dB und bei 7 kHz eine Dämpfung von etwa 25 dB erreicht, wie in 6 illustriert. Ähnliche tiefpassartige Eigenschaften können auch bei vielen akustischen Front-Ends beobachtet werden, sind also im realisierten System in der Regel ohnehin, d.h. auch ohne explizit eingesetztes digitales Postfilter vorhanden.
  • Als nächstes wird der Teilalgorithmus der Restsignalerweiterung beschrieben. Das Ziel der Restsignalerweiterung besteht darin, aus der in schmalbandiger Form vorliegenden Schätzung x ^nb(k) der Anregung des Sprachtraktes die entsprechende breitbandige Anregung zu ermitteln. Diese Schätzung x ^wb(k') des Anregungssignals in breitbandiger Form dient anschließend als Eingangssignal für das nachfolgende Synthesefilter HS(z').
  • Wegen des zugrundeliegenden Modells der Spracherzeugung können sowohl für das Eingangs- als auch für das Ausgangssignal der Restsignalerweiterung bestimmte Eigenschaften angenommen werden.
    • • Das Eingangssignal x ^nb(k) des Teilalgorithmus der Restsignalerweiterung entsteht durch die Filterung des schmalbandigen Sprachsignals snb(k) mit dem FIR Filter HI(z), dessen Koeffizienten durch eine LPC-Analyse oder durch eine Codebuchsuche vorgegeben werden. Als Resultat weist das Restsignal eine flache bzw. annähernd weiße spektrale Einhüllende auf. Ist der aktuelle Sprachrahmen s (m) / nb(κ) also rauschartiger Natur, so entspricht der Restsignalrahmen
      Figure 00350001
      näherungsweise (bandbegrenztem) weißem Rauschen; bei einem stimmhaften Laut weist das Restsignal eine harmonische Struktur aus sinusartigen Tönen bei der Sprachgrundfrequenz fp und deren ganzzahligen Vielfachen auf, wobei diese Einzeltöne jedoch jeweils näherungsweise die gleiche Amplitude aufweisen, die spektrale Einhüllende also wiederum flach ist.
    • • Das Ausgangssignal x ^wb(k') der Restsignalerweiterung dient als Anregungssignal des nachfolgenden Synthesefilters HS(z'). Es muss also prinzipiell die gleiche Eigenschaft der spektralen Flachheit aufweisen, wie das Eingangssignal x ^nb(k') des Teilalgorithmus, allerdings im gesamten breitbandigen Frequenzbereich. Ebenso sollte im Idealfall bei stimmhaften Lauten eine der Sprachgrundfrequenz fp entsprechende harmonische Struktur vorhanden sein.
  • Eine wichtige Forderung an den Algorithmus der Bandbreitenerweiterung ist die Transparenz im Basisband. Um dieses Ziel erreichen zu können, muss sichergestellt sein, dass die Anregungskomponenten im Basisband nicht modifiziert werden. Hierzu zählt auch, dass die Leistungsdichte des Anregungssignals nicht verändert wird. Dies ist wichtig, damit das Ausgangssignal s ^wb(k') der Bandbreitenerweiterung im Basisband die gleiche Leistung wie das Eingangssignal snb(k) aufweist – insbesondere dann, wenn die neu synthetisierten Signalkomponenten am Ausgang des Gesamtsystems mit einer interpolierten Version snb(k') des Eingangssignals kombiniert werden.
  • Zur Restsignalerweiterung gibt es verschiedene grundsätzliche Möglichkeiten. Die einfachste Möglichkeit zur Erweiterung des Restsignals ist die spektrale Spiegelung, wobei jeweils für jeden zweiten Abtastwert des schmalbandigen Restsignals x ^nb(k) ein Nullwert eingefügt wird. Eine weitere Methode ist die spektrale Verschiebung, wobei die tiefe und die hohe Hälfte des Frequenzbereichs des breitbandigen Anregungssignals x ^w b(k') separat erzeugt wird. Auch hier wird zunächst eine spektrale Spiegelung durchgeführt und das breitbandige Signal anschließend gefiltert, so dass dieses Teilsignal ausschließlich tieffrequente Komponenten enthält. In einem weiteren Zweig wird dieses Signal moduliert und anschließend einem Hochpass zugeführt, der eine untere Grenzfrequenz von typischerweise 4 kHz aufweist. Durch die Modulation wird aus der anfänglichen Spiegelung der ursprünglichen Signalanteile eine Verschiebung. Schließlich werden die beiden Teilsignale addiert.
  • Eine weitere alternative Möglichkeit zur Generierung hochfrequenter Anregungskomponenten basiert auf der Beobachtung, dass in Sprachsignalen hochfrequente Anteile hauptsächlich während scharfer Zischlaute und anderer stimmloser Laute vorkommen. Entsprechend sind diese hohen Frequenzbereiche im allgemeinen eher rauschartiger als tonaler Natur. Daher wird bei diesem Ansatz zu dem interpolierten schmalbandigen Eingangssignal xnb(k') ein bandbegrenztes Rauschen mit angepasster Leistungsdichte hinzugefügt.
  • Eine weitere Möglichkeit der Restsignalerweiterung besteht darin, gezielt Effekte von Nichtlinearitäten zu nutzen, indem das schmalbandige Restsignal mittels einer nichtlinearen Kennlinie verzerrt wird.
  • Weiterhin gibt es verschiedene Methoden, die das Restsignal vor oder nach der Erweiterung modifizieren und so die Eigenschaften des Ausgangssignals verbessern, wie z.B. Postfilter, getrennte Bearbeitung von hoch- und tieffrequenten Anregungskomponenten, Weißmacherfilter, Longtermprediction (LTP), Unterscheidung stimmhafter und stimmloser Laute etc.
  • Die Erweiterung der spektralen Einhüllenden des schmalbandigen Eingangssignals ist der eigentliche Kern der Bandbreitenerweiterung.
  • Die Grundlage für die gewählte Vorgehensweise ist die Beobachtung, dass in einem Sprachsignal nur eine begrenzte Anzahl typischer Laute mit den entsprechenden spektralen Einhüllenden vorkommen. Demzufolge scheint es ausreichend zu sein, in einer Trainingsphase eine ausreichende Anzahl von solchen typischen spektralen Einhüllenden in einem Codebuch zu sammeln und dieses dann bei einer anschließenden Bandbreitenerweiterung zu verwenden.
  • In dem an sich bekannten Codebuch werden Informationen über die Form der spektralen Einhüllenden als Koeffizienten A ^(z') eines entsprechenden linearen Prädiktionsfilters gespeichert. Die Codebucheinträge können also direkt in dem jeweiligen LPC-Inversfilter HI(z') = A ^(z') oder Synthesefilter HS(z') _ 1/A ^(z') eingesetzt werden. Die Art der so erstellten Codebücher entspricht damit Codebüchern, wie sie in der Sprachcodierung bei der Gain-Shape Vektorquantisierung eingesetzt werden. Ebenso ähneln sich auch die für Training bzw. Verwendung der Codebücher einsetzbaren Algorithmen; bei der Bandbreitenerweiterung muss allerdings die Beteiligung von sowohl schmal- als auch breitbandigen Signalen entsprechend berücksichtigt werden.
  • Beim Training wird das zur Verfügung stehende Trainingsmaterial in mehrere typische Laute (spektrale Einhüllendenformen) unterteilt, aus denen anschließend durch Speicherung von Repräsentanten das Codebuch erstellt wird. Das Training erfolgt einmalig für repräsentative Sprachproben und ist daher keinen allzu strengen Restriktionen bezüglich Rechen- oder Speichereffizienz unterworfen.
  • Die beim Training verwendete Vorgehensweise ist prinzipiell die gleiche wie bei der Gain-Shape Vektorquantisierung (siehe z.B. Y. Linde, A. Buzo, R.M. Gray, „An Algorithm for Vector Quantizer Design", IEEE Transactions on Communications, Band COM-28, Nr. 1, Januar 1980). Mit Hilfe eines Abstandsmaßes lässt sich das Trainingsmaterial in eine Reihe von Clustern unterteilen, in denen jeweils spektral ähnliche Sprachrahmen aus den Trainingsdaten vereint sind. Die Beschreibung eines Clusters i erfolgt dabei durch den sog. Centroiden Ci, der den Schwerpunkt sämtlicher Sprachrahmen bildet, die dem jeweiligen Cluster zugeordnet sind.
  • Bei einigen bekannten Algorithmen zur Bandbreitenerweiterung ist die Benutzung mehrerer paralleler Codebücher notwendig, z.B. wenn die Inversfilterung, HI(z), und die Synthesefilterung, HS(z'), mit unterschiedlichen Abtastraten vollzogen wird. In solchen Fällen ist es natürlich wichtig, dass die für die beiden Filter verwendeten Koeffizientensätze A ^nb(z) und A ^wb(z') zueinander passen, d.h. ein Codebuch-Eintrag in dem primären LPC-Codebuch – je nach Training in breit- oder schmalbandiger Form – muss denselben Laut beschreiben, wie der entsprechende Eintrag in dem zweiten, sog. Schattencodebuch.
  • Wenn im folgenden von einem bzw. dem Codebuch gesprochen wird, ist in der Regel die Gesamtheit aus primärem Codebuch und allen angegliederten Schattencodebüchern gemeint, wenn nicht explizit von einem bestimmten Codebuch die Rede ist. Wie viele und welche Codebücher tatsächlich verwendet werden, hängt von der algorithmischen Struktur der Bandbreitenerweiterung ab.
  • Eine grundlegende Entscheidung, die vor dem Training getroffen werden muss, besteht darin, ob für das Training des primären Codebuchs die schmalbandige Version snb(k) oder die breitbandige Variante swb(k') des Trainingsmaterials verwendet werden soll. Aus der Literatur bekannte Verfahren verwenden ausschließlich das schmalbandige Signal snb(k) als Trainingsmaterial.
  • Ein großer Vorteil der Verwendung des schmalbandigen Signals snb(k) besteht darin, dass die Eigenschaften der Signale bei Training und Bandbreitenerweiterung die gleichen sind. Training und Bandbreitenerweiterung sind also sehr gut aufeinander abgestimmt. Wird hingegen für die Erstellung des Codebuches das breitbandige Trainingssignal swb(k') verwendet, so entsteht das Problem, dass bei der späteren Codebuchsuche nur ein schmalbandiges Signal zur Verfügung steht und somit andere Bedingungen herrschen als beim Training.
  • Andererseits spricht für ein Training mit dem breitbandigen Trainingssignal swb(k'), dass diese Vorgehensweise der eigentlichen Intention des Trainings, nämlich möglichst gute Repräsentanten für breitbandige Sprachlaute zu finden und zu speichern, viel eher entgegenkommt. Vergleicht man verschiedene Codebucheinträge, wie sie beim Training mit einem breitbandigen Sprachsignal entstehen, so lassen sich recht viele Lautpaare beobachten, bei denen sich die schmalbandigen spektralen Einhüllenden einander sehr ähneln, während die Repräsentanten der breitbandigen Einhüllenden durchaus stark unterschiedlich sind. Bei solchen Lauten sind bei einem Training mit schmalbandigem Trainingsmaterial Probleme zu erwarten, da die sich ähnelnden Laute in einem Codebucheintrag zusammengefasst werden und so die sich unterscheidenden breitbandigen Einhüllenden durch die Mittelung gegenseitig abgeschwächt werden.
  • Insgesamt überwiegen stark die Vorteile eines breitbandigen Trainings, so dass für die im weiteren erläuterten Untersuchungen von einem solchen Training ausgegangen wird.
  • Die Größe des Codebuches ist ein Faktor, der die Qualität der Bandbreitenerweiterung stark beeinflusst. Je größer das Codebuch ist, desto größer wird die Anzahl der speicherbaren typischen Sprachlaute. Außerdem sind die einzelnen spektralen Einhüllenden genauer repräsentiert. Andererseits wächst natürlich mit der Zahl der Einträge auch die Komplexität sowohl des Trainings als auch der eigentlichen Bandbreitenerweiterung. Bei der Festlegung der Codebuchgröße muss also ein Kompromiss zwischen der algorithmischen Komplexität und der im Bestfall (d.h. bei "optimaler" Suche im Codebuch) möglichen Signalqualität des Ausgangssignals s ^wb(k') eingestellt werden. Die Anzahl der in dem Codebuch gespeicherten Einträge wird mit I gekennzeichnet.
  • Eine Suche durch Inversfilterung mit allen Einträgen eines schmalbandigen Codebuchs gefolgt von einem Vergleich der Restsignalleistungen E (i) / x führt in der Regel nicht zu befriedigenden Resultaten. Es sollten also zusätzlich zu der Form der spektralen Einhüllenden weitere Eigenschaften des schmalbandigen Eingangssignals snb(k) zur Auswahl des Codebucheintrages ausgewertet werden.
  • Bei dem bei dieser Ausführungsform eingeführten statistischen Ansatz zur Suche im Codebuch wird die Gewichtung der einzelnen Sprachmerkmale untereinander implizit während der Trainingsphase optimiert. Auf den Vergleich von Einhüllendenformen mittels Inversfilterung wird hierbei komplett verzichtet.
  • Die Grundlage des statistischen Ansatzes ist ein gegenüber 1 etwas modifiziertes Modell des Spracherzeugungsprozesses, wie es in 7 skizziert ist. Die Signalquelle wird nun als Hidden-Markov Prozess angenommen, d.h. sie besitzt mehrere mögliche Zustände, die durch die Stellung des Schalters SCH gekennzeichnet sind. Die Schalterstellung wechselt nur jeweils zwischen zwei Sprachrahmen; mit jedem Rahmen ist also ein Zustand der Quelle fest verknüpft. Der aktuelle Zustand der Quelle wird im folgenden mit Si bezeichnet.
  • Mit jedem Zustand Si der Quelle sind nun bestimmte Eigenschaften des Anregungssignals xwb(k') sowie des Sprachtraktes bzw. der spektralen Einhüllendenform verbunden. Die möglichen Zustände werden so definiert, dass jedem Eintrag i des breitbandigen Codebuches ein eigener Zustand Si zugeordnet ist. Durch den Inhalt des Codebucheintrages ist somit bereits die typische Form der spektralen Einhüllenden (durch HI(z') = 1/
    Figure 00410001
    ) vorgegeben. Ebenso lassen sich für jeden Zustand typische Eigenschaften des Anregungssignals xwb,i(k') finden.
  • Hochpassartige Codebucheinträge werden beispielsweise eher in Verbindung mit rauschartigen, stimmlosen Anregungen auftreten, wohingegen stimmhafte Laute mit tonaler Anregung mit eher tiefpassartigen Einhüllendenformen verbunden sind.
  • Die bei der Codebuchsuche zu lösende Aufgabe besteht nun darin, für jeden Rahmen des Eingangssignals snb(k) die zunächst unbekannte Stellung des Schalters, d.h. den Zustand Si der Quelle zu bestimmen. Für ähnliche Problemstellungen sind viele Ansätze, z.B. für die automatische Spracherkennung, entwickelt worden, allerdings besteht dort i.a. die Zielsetzung darin, aus einer Menge abgespeicherter Modelle (für jede zu erkennende Einheit (Phonem, Wort o.ä.) wird bei der Spracherkennung in der Regel ein separates Hidden-Markov Modell trainiert und gespeichert) bzw. Zustandsfolgen die beste auf das Eingangssignal passende auszuwählen, während für die Bandbreitenerweiterung nur ein einziges Modell existiert und die Anzahl der korrekt geschätzten Zustände zu maximieren ist. Die Schätzung der Zustandsfolge wird durch den Umstand erschwert, dass durch die Tief- bzw. Bandpassfilterung (Übertragungsstrecke) nicht alle Informationen über das (breitbandige) Quellsignal swb(k') zur Verfügung stehen.
  • Der zur Bestimmung der wahrscheinlichsten Zustandsfolge angesetzte Algorithmus lässt sich für jeden Sprachrahmen in mehrere Schritte unterteilen, die in den folgenden Teilabschnitten erläutert werden.
    • 1. Zunächst werden aus dem schmalbandigen Signal mehrere Merkmale extrahiert.
    • 2. Mittels eines zuvor trainierten statistischen Modells sowie der erhaltenen Merkmale können verschiedene a priori und/oder a posteriori Wahrscheinlichkeiten bestimmt werden.
    • 3. Diese Wahrscheinlichkeiten können schließlich verwendet werden, um entweder den Sprachrahmen zu klassifizieren oder um eine, nicht an die diskreten Codebucheinträge gebundene, Schätzung der spektralen Einhüllendenform zu berechnen.
  • Die aus dem schmalbandigen Sprachsignal snb(k) extrahierten Merkmale sind letztlich die Grundlage für die Bestimmung des aktuellen Quellenzustandes Si. Daher sollen die Merkmale Informationen enthalten, die möglichst gut mit der Form der breitbandigen spektralen Einhüllenden korrelieren. Um eine hohe Robustheit zu erreichen, dürfen die gewählten Merkmale dagegen nur eine möglichst geringe Abhängigkeit von Sprecher, Sprache, Veränderungen der Sprechweise, Hintergrundgeräuschen, Verzerrungen etc. aufweisen. Die Auswahl der richtigen Merkmale ist ein entscheidender Faktor für die erreichbare Qualität und Robustheit des statistischen Suchverfahrens.
  • Die zu dem m-ten Sprachrahmen s (m) / nb(κ) der Länge K berechneten Merkmale werden zu dem Merkmalsvektor X(m) zusammengefasst, der die Grundlage für die nachfolgenden Schritte darstellt. Im folgenden werden exemplarisch einige einsetzbare Sprachparameter kurz beschrieben. Sämtliche Sprachparameter sind vom Rahmenindex m abhängig – wo die Berechnung eines Parameters nur von Inhalten des aktuellen Rahmens abhängt, wird im folgenden zur Vereinfachung auf die Kennzeichnung der Abhängigkeit vom Rahmenindex m verzichtet.
  • Ein Merkmal ist die Kurzzeitleistung En.
  • Die Energie eines Signalabschnittes ist in der Regel in stimmhaften Abschnitten höher als bei stimmlosen Lauten oder Pausen. Die Energie ist hier definiert als
    Figure 00430001
  • Diese Rahmenenergie ist aber nicht nur von dem momentan gesprochenen Laut, sondern auch von absoluten Pegelunterschieden verschiedener Sprachproben abhängig. Um diesen bei der Bandbreitenerweiterung unerwünschten Einfluss des globalen Abspielpegels auszuschließen, muss die bezogene Rahmenleistung
    Figure 00440001
    auf die in der gesamten, aus M Rahmen zusammengesetzten Sprachprobe maximalen vorkommenden Rahmenleistung
    Figure 00440002
    bezogen werden. Für E ~n(m) ergeben sich also Werte im Bereich von Null bis Eins.
  • Ein globales Maximum für die Rahmenleistung kann natürlich nur dann berechnet werden, wenn im Voraus die gesamte Sprachprobe vorliegt. In den meisten Fällen wird man daher die maximale Rahmenenergie adaptiv schätzen müssen. Die geschätzte maximale Rahmenleistung E ~n, max(m) wird dann vom Rahmenindex m abhängig und kann z.B. durch die Vorschrift
    Figure 00440003
    rekursiv bestimmt werden. Mit dem festen Faktor α < 1 kann die Geschwindigkeit der Adaption gesteuert werden.
  • Ein anderes Merkmal ist der Steigungsindex dn.
  • Der Steigungsindex (siehe J. Paulus, "Codierung breitbandiger Sprachsignale bei niedriger Datenrate". Aachener Beiträge zu Digitalen Nachrichtensystemen, Verlag der Augustinus Buchhandlung, Aachen, 1997) ist ein Maß, das die Häufigkeit von Richtungsänderungen und die Steigung des Signals auswertet. Da während stimmhafter Laute das Signal einen wesentlich glatteren Verlauf besitzt als bei stimmlosen Lauten, wird der Steigungsindex für stimmhafte Signale auch einen geringeren Wert annehmen als für stimmlose.
  • Die Berechnung des Steigungsindex basiert auf dem Gradienten Ψ(κ) = xnb(κ) – xnb(κ – 1)des Signals. Zur Berechnung des eigentlichen Steigungsindex werden die Beträge der bei Richtungswechseln des Signals auftretenden Gradienten aufsummiert und mit der RMS-Energie
    Figure 00450001
    des Rahmens normiert
    Figure 00450002
  • Die sign-Funktion wertet das Vorzeichen seines Argumentes aus
  • Figure 00450003
  • Ein weiteres Merkmal ist die Nulldurchgangsrate ZCR.
  • Mit der Nulldurchgangsrate wird angegeben, wie oft der Signalpegel innerhalb eines Rahmens den Nullwert überschreitet, d.h. das Vorzeichen wechselt. Bei rauschartigen Signalen ist die Nulldurchgangsrate höher als bei Signalen mit stark tonalen Komponenten. der Wert wird auf die Zahl der Abtastwerte eines Rahmens normiert, so dass nur Werte zwischen Null und Eins auftreten können.
  • Figure 00450004
  • Ein weiteres Merkmal sind Cepstralkoeffizienten cp.
  • Als Sprachparameter, die die geglättete spektrale Einhüllende eines Signals robust beschreiben, werden in der Spracherkennung häufig Cepstrahlkoeffizienten eingesetzt. Das reellwertige Cepstrum des Eingangssignals snb(κ) ist als inverse Fou riertransformierte des logarithmierten Betragsspektrums definiert cp = IDFT{In|DFT{snb(κ)}|}
  • Während der nullte Cepstralkoeffizient c0 ausschließlich von der Leistung des Signals abhängt, beschreiben die folgenden Koeffizienten die Form der Einhüllenden.
  • Die Berechnung kann aufwandsgünstig einer LPC-Analyse mittels Levinson-Durbin Algorithmus nachgeschaltet werden; die LPC-Koeffizienten können mit einer rekursiven Vorschrift in Cepstralkoeffizienten umgerechnet werden. Für die erwünschte grobe Beschreibung der Einhüllendenform des schmalbandigen Eingangssignals reicht die Berücksichtigung beispielsweise der ersten acht Koeffizienten aus.
  • Weitere wichtige Merkmale von Sprachsignalen sind die zeitlichen Veränderungen der oben beschriebenen Parameter. Die einfache Verwendung der Differenz zeitlich aufeinanderfolgender Parameter als Schätzung der Ableitung führt allerdings zu sehr verrauschten und unzuverlässigen Ergebnissen. Ein in L. Rabiner, B.-H. Juang, "Fundamentals of Speech Recognition". Prentice Hall, 1993 beschriebenes Verfahren, das auf einer Näherung der tatsächlichen zeitlichen Ableitung des Parameterverlaufes durch ein Polynom basiert, führt auf eine einfache Vorschrift, die hier am Beispiel der Kurzzeitleistung En(m) angegeben werden soll
    Figure 00460001
  • Mit der Konstanten Λ lässt sich die Anzahl der Rahmen bestimmen, die bei der Glättung der Ableitung berücksichtigt werden sollen. Ein größerer Wert für Λ bewirkt ein weniger verrauschtes Ergebnis, es muss jedoch beachtet werden, dass hierdurch eine erhöhte Signalverzögerung notwendig wird, da nach obiger Vorschrift auch zukünftige Rahmen in die Schätzung der Ableitung eingehen.
  • Als akzeptabler Kompromiss zwischen der Dimension des Merkmalsvektors und den erzielten Klassifikationsergebnissen kann die Zusammensetzung des Merkmalsvektors aus den folgenden Komponenten gewählt werden:
    • • Kurzzeitleistung En (mit adaptivem Normierungsfaktor En,max(m); α = 0.999),
    • • Steigungsindex dn,
    • • Acht Cepstralkoeffizienten c1 bis c8 und
    • • Ableitungen aller zehn obigen Parameter mit Λ = 3.
  • Das Ergebnis sind also zwanzig Sprachparameter, die für jeden Sprachrahmen zu dem Merkmalsvektor X kombiniert werden
    Figure 00470001
  • Die Dimension des Merkmalsvektors X wird im folgenden mit N bezeichnet (hier: N = 20).
  • Bei den Wahrscheinlichkeiten sind mehrere zu unterscheiden. Unter der Beobachtungswahrscheinlichkeit soll hier die Wahrscheinlichkeit verstanden werden, dass unter der Voraussetzung, dass die Signalquelle sich in dem definierten Zustand Si befindet, der Merkmalsvektor X beobachtet wird.
  • Diese Wahrscheinlichkeit P(X|Si) hängt allein von den Eigenschaften der Quelle ab. Insbesondere hängt die Verteilungsdichtefunktion p(X|Si) von der Festlegung der möglichen Quellenzustände ab, d.h. im Falle der Bandbreitenerweiterung von den im Codebuch gespeicherten spektralen Einhüllenden.
  • Aufgrund der komplexen Zusammenhänge beim Spracherzeugungsprozess lässt sich die Beobachtungswahrscheinlichkeit nicht in beliebiger Genauigkeit analytisch berechnen, sondern sie muss anhand von Informationen, die in einer Trainingsphase gesammelt wurden, geschätzt werden. Man beachte, dass die Verteilungsdichtefunktion (VDF) wegen der Dimension X eine N-dimensionale Funktion ist. Es müssen daher Wege gefunden werden, diese VDF durch möglichst einfache Modelle, aber dennoch in hinreichender Genauigkeit zu modellieren.
  • Die einfachste Möglichkeit, die VDF p(X|Si) zu modellieren, besteht in der Verwendung von Histogrammen. Hierbei wird der Wertebereich jedes Elementes des Merkmalsvektors in eine feste Anzahl diskreter Stufen (z.B. 100) unterteilt und in einer Tabelle wird zu jeder Stufe die Wahrscheinlichkeit abgelegt, dass der entsprechende Parameter innerhalb des durch die Stufe repräsentierten Werteintervalles liegt. Zu jedem Zustand der Quelle muss eine separate Tabelle angelegt werden.
  • Es ist leicht einzusehen, dass aus Gründen der Realisierbarkeit bei diesem Verfahren keine Möglichkeit besteht, Kovarianzen zwischen den einzelnen Elementen des Merkmalsvektors zu berücksichtigen: Wird beispielsweise der Wertebereich jedes Parameters sehr grob in nur 10 Stufen unterteilt, so wären für die Speicherung eines Histogramms, das die 20-dimensionale Verteilungsdichtefunktion vollständig beschreibt, insgesamt 1020 Speicherstellen notwendig!
  • In 8 sind die eindimensionalen Histogramme für die Nulldurchgangsrate dargestellt, anhand derer bereits einige Eigenschaften der Quelle erläutert werden können.
  • Man erkennt an dem Beispiel, dass die für verschiedene Zustände auftretenden Wertebereiche in dieser eindimensionalen Darstellung durchaus sehr stark überlappen können. Diese Überlappung wird bei der späteren Klassifikation zu Unsicherheiten und Fehlentscheidungen führen.
  • Weiterhin ist zu beobachten, dass die Verteilungsdichtefunktionen in der Regel nicht einer bekannten Form wie z.B. der Gauß- oder Poisson-Verteilung entsprechen. Will man also von der Darstellung als Histogramm zu einer Modellierung der VDF übergehen, so sind solche einfachen Modelle offensichtlich nicht geeignet.
  • Um eine Berücksichtigung der zwischen den im Merkmalsvektor enthaltenen Sprachparameter bestehenden Korrelationen zu ermöglichen, muss ein einfaches Modell für die Darstellung der N-dimensionalen Verteilungsdichtefunktion erstellt werden. Es wurde bereits erwähnt, dass die VDF i.a. schon im eindimensionalen Fall nicht einer der bekannten "Standardformen" entspricht. Aus diesem Grund wurde eine Modellierung mittels sogenannter Gaussian Mixture Models (GMM) realisiert.
  • Bei dieser Methode wird eine Verteilungsdichtefunktion p(X|Si) durch eine Summe gewichteter mehrdimensionaler Gauß-Verteilungen approximiert
    Figure 00490001
  • Die in diesem Ausdruck verwendete Funktion N(X; μilil) ist die N-dimensionale Gaußfunktion
    Figure 00490002
  • Zur Beschreibung des Modells für einen Zustand reichen nun also die L skalaren Gewichtungsfaktoren Pil sowie L Parametersätze zur Definition der einzelnen Gauß-Funktionen, jeweils bestehend aus einer N×N Kovarianzmatrix Σil und dem Mittelwertvektor μil der Länge N = 20 aus. Die Gesamtheit der Parameter des Modells eines einzigen Zustandes werden im folgenden mit Θi bezeichnet; in Θ werden die Parameter aller Zustände zusammengefasst.
  • Durch die Variation der Anzahl L der in einem Modell enthaltenen Gauß-Verteilungen lässt sich nun theoretisch jede reale Verteilungsdichtefunktion in beliebiger Genauigkeit annähern.
  • In der Praxis reichen aber meist bereits recht kleine Werte für L, beispielsweise im Bereich um 5 bis 10, für eine ausreichend genaue Modellierung aus.
  • Das Training der Gaussian Mixture Models erfolgt im Anschluss an die Erstellung der Codebücher anhand der gleichen Trainingsdaten sowie der "optimalen Rahmenzuordnung" iopt(m) mit dem iterativen Estimate-Maximize (EM) Algorithmus (siehe z.B. S.V. Vaseghi, „Advanced Signal Processing and Digital Noise Reduction", Wiley, Teubner, 1996).
  • In 9 ist ein Beispiel für die zweidimensionale Modellierung einer VDF dargestellt. Es ist zu beobachten, dass durch die Berücksichtigung der Kovarianzen eine bessere Klassifikation ermöglicht wird, da die drei Funktionen im zweidimensionalen Fall räumlich weniger stark überlappen, als die beiden eindimensionalen Projektionen auf eine der beiden Achsen.
  • Weiterhin zeigt sich, dass das Modell die tatsächlich gemessene Häufigkeitsverteilung der Merkmalswerte verhältnismäßig gut nachbildet.
  • Die Wahrscheinlichkeit P(Si), dass die Signalquelle sich überhaupt in einem Zustand Si befindet, soll im folgenden als Zustandswahrscheinlichkeit bezeichnet werden. Bei der Berechnung der Zustandswahrscheinlichkeiten werden keinerlei Nebeninformationen berücksichtigt, sondern es wird anhand des ganzen Trainingsmaterials das Verhältnis der Anzahl Mi der mittels "optimaler" Suche einem bestimmten Codebucheintrag zugeordneten Rahmen zu der gesamten Rahmenanzahl M bestimmt
    Figure 00500001
  • Auf diese einfache Weise lassen sich die Zustandswahrscheinlichkeiten für alle Einträge des Codebuchs bestimmen und in einer eindimensionalen Tabelle speichern.
  • Betrachtet man ein Sprachsignal, so stellt man fest, dass einzelne Laute bzw. Einhüllendenformen deutlich wahrscheinlicher auftreten als andere. Schon allein wegen der zeitlichen Dauer stimmhafter Laute kommen entsprechend stimmhafte Rahmen erheblich häufiger vor als beispielsweise Zischlaute oder Plosive.
  • Die Übergangswahrscheinlichkeit P(S (m) / i|S (m-1) / j) beschreibt, wie wahrscheinlich der Übergang zwischen den Zuständen von einem Rahmen zum Folgerahmen ist. Grundsätzlich ist der Übergang von jedem Zustand zu jedem anderen möglich, so dass für die Speicherung der trainierten Übergangswahrscheinlichkeiten eine zweidimensionale Matrix mit insgesamt I2 Einträgen nötig ist. Das Training kann ähnlich wie bei den Zustandswahrscheinlichkeiten durch die Berechnung der Verhältnisse der Anzahlen bestimmter Übergänge zu der Gesamtzahl aller Übergänge erfolgen.
  • Betrachtet man die Matrix der Übergangswahrscheinlichkeiten, so stellt man fest, dass die größten Maxima auf der Hauptdiagonalen liegen, dass also die Quelle in der Regel länger als eine Rahmenlänge in dem gleichen Zustand verharrt. Vergleicht man die Einhüllendenformen zweier Codebucheinträge, zwischen denen eine hohe Übergangswahrscheinlichkeit gemessen wurde, so sind sich diese im allgemeinen verhältnismäßig ähnlich.
  • Aus den anhand der Merkmale ermittelten bzw. a priori vorhandenen Wahrscheinlichkeiten kann nun im letzten Schritt eine Klassifikation des aktuellen Rahmens zu einem der im Codebuch repräsentierten Quellenzustände erfolgen; das Ergebnis ist dann also ein einzelner definierter Index i desjenigen Codebucheintrages, der nach dem statistischen Modell dem aktuellen Sprachrahmen bzw. Quellenzustand am ehesten entspricht.
  • Alternativ können die berechneten Wahrscheinlichkeitswerte für eine Schätzung der nach einem definierten Fehlermaß besten Mischung mehrerer Codebucheinträge genutzt werden.
  • Das Ergebnis der verschiedenen Verfahren hängt maßgeblich von dem jeweils zu optimierenden Kriterium ab. Es wurden die folgenden Verfahren untersucht:
    • • Bei der Maximum Likelihood (ML) Methode wird derjenige Zustand bzw. Eintrag des Codebuchs ausgewählt, für den die Beobachtungswahrscheinlichkeit maximal ist
      Figure 00520001
    • • En anderer Ansatz besteht darin, denjenigen Zustand anzunehmen, der aufgrund der momentanen Beobachtung am wahrscheinlichsten ist, d.h. es ist die a posteriori Wahrscheinlichkeit P(Si|X) zu maximieren
      Figure 00520002
      Mit der Bayes'schen Regel lässt sich dieser Ausdruck so umformen, dass mit der Beobachtungswahrscheinlichkeit P(X|Si) und der a priori Wahrscheinlichkeit P(Si) nur noch bekannte bzw. messbare Größen vorkommen
      Figure 00520003
      Nach der verwendeten a posteriori Wahrscheinlichkeit wird diese Klassifikationsmethode Maximum A Posteriori (MAP) genannt.
    • • Auf der Minimierung des mittleren quadratischen Fehlers (Minimum Mean Squared Error) zwischen geschätztem und O- riginalsignal basiert das MMSE Verfahren. Durch diese Methode wird eine Schätzung erstellt, die sich aus der mit der a posteriori Wahrscheinlichkeit P(Si|X) gewichteten Summe der Codebucheinträge Ci ergibt
      Figure 00530001
      Die Wahrscheinlichkeit des Auftretens des Merkmalsvektors X kann aus dem statistischen Modell berechnet werden:
      Figure 00530002
      Im Gegensatz zu den vorherigen beiden Klassifikationsverfahren ist das Ergebnis nun nicht mehr an einen der Codebucheinträge gebunden. In Fällen, in denen die a posteriori Wahrscheinlichkeit für einen Zustand dominant ist, das Verfahren sich also quasi seiner Entscheidung sicher ist, entspricht das Resultat der Schätzung dem Ergebnis des MAP Schätzers.
    • • Bei den beiden Methoden MAP-Klassifikation und MMSE-Schätzung, bei denen die a posteriori Wahrscheinlichkeit P(Si|X) ausgewertet wird, können zu den a priori bekannten Zustandswahrscheinlichkeiten zusätzlich die Übergangswahrscheinlichkeiten berücksichtigt werden. Zu diesem Zweck muss in den beiden Ausdrücken ??? der Term P(Si|X) für die a posteriori Wahrscheinlichkeit durch den Ausdruck P(S (m) / i, X(0), X(1), ..., X(m)) ersetzt werden, der von sämtlichen in der Vergangenheit beobachteten Rahmen abhängt. Die Berechnung dieser Verbundwahrscheinlichkeit kann rekursiv erfolgen
      Figure 00540001
      Beim ersten Rahmen kann die Startlösung wie folgt berechnet werden: P(S(0)i (0), X(0)) = P(Si)P(X(0)|Si)
  • Obwohl die Erfindung vorstehend anhand bevorzugter Ausführungsbeispiele erläutert wurde, ist sie darauf nicht beschränkt, sondern in vielfältiger Weise modifizierbar.
  • Insbesondere ist die Erfindung für jegliche Art von Sprachsignalen anwendbar und nicht auf Telefonsprachsignale beschränkt.
  • xwb(k')
    Anregungssignal des Sprachtrakts, breitbandig
    swb(k')
    Sprachsignal, breitbandig
    snb(k')
    Sprachsignal, schmalbandig,
    Abtastrate fa' = 16 kHz
    snb(k)
    Sprachsignal, schmalbandig
    Θ
    A(z')
    Übertragungsfunktion des zum Sprachtraktfilter
    inversen Filters
    HÜS(z')
    Übertragungsfunktion des Modells der Übertra
    gungsstrecke
    HBP(z')
    Übertragungsfunktion des Bandpaßfilters
    A ^nb(z)
    Koeffizientensatz für LPC-Analysefilter
    HI(z)
    Übertragungsfunktion des LPC-Inversfilters
    HS(z')
    Übertragungsfunktion des LPC-Synthesefilters
    HBS(z')
    Übertragungsfunktion des Bandstoppfilters
    A ^wb(z')
    Koeffizientensatz für LPC-Synthesefilter
    ^xnb(k)
    Schätzung des Anregungssignals des Sprach
    trakts, schmalbandig
    ^xwb(k)
    Schätzung des Anregungssignals des Sprach
    trakts, breitbandig
    AE
    Anregungserzeugung
    ST
    Sprachtrakt
    TP
    Tiefpaß
    LPCA
    LPC-Analyse
    BP
    Bandpaß
    ADD
    Addierer
    LPCA
    LPC-Analyse
    EE
    Einhüllendenerweiterung
    RE
    Restsignalerweiterung
    IF
    Inversfilter
    SF
    Synthesefilter
    BS
    Bandstopp
    IP
    Interpolation
    I
    Anzahl Codebuch
    RA
    Reduzierung Abtastfrequenz
    SCH
    Schalter

Claims (19)

  1. Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen mit den Schritten: Bereitstellen eines schmalbandigen Sprachsignals mit einer vorbestimmten Abtastrate; Durchführen einer Analysefilterung an dem abgetasteten Sprachsignal mit aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten, welche eine Erweiterung der Bandbreite der Einhüllenden bewirken; Durchführen einer Restsignalerweiterung an dem anlaysegefilterten Sprachsignal; und Durchführen einer Synthesefilterung an dem restsignalerweitereten Sprachsignal zur Erzeugung eines breitbandigeren Sprachsignals mit den aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten; dadurch gekennzeichnet, daß die Filterkoeffizienten für die Analysefilterung und die Synthesefilterung durch einen Algorithmus aus einem im voraus trainierten Codebuch ermittelt werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das abgestastete schmalbandige Sprachsignal im Frequenzbereich 300 Hz bis 3,4 kHz liegt und das breitbandigere Sprachsignal im Frequenzbereich 50 Hz bis 7 kHz liegt.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Algorithmus zur Ermittlung der Filterkoeffizienten folgende Schritte aufweist: Aufstellen des Codebuchs unter Verwendung eines Hidden-Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Abhängigkeit vom Zustand beschreibt; Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor für einen jeweiligen Zeitabschnitt; Vergleichen des Merkmalsvektors mit den statistischen Modellen; und Ermitteln der Filterkoeffizienten aufgrund des Vergleichsergebnisses.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß beim Vergleichen mindestens eine der folgenden Wahrscheinlichkeiten berücksichtigt wird: die Beobachtungswahrscheinlichkeit des Auftretens des Merkmalsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand befindet; die Übergangswahrscheinlichkeit, daß die Quelle für das abgetastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß zum Ermitteln der Filterkoeffizienten der Codebucheintrag verwendet wird, für den die Beobachtungswahrscheinlichkeit maximal ist.
  6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß zum Ermitteln der Filterkoeffizienten der Codebucheintrag verwendet wird, für den die Verbundwahrscheinlichkeit p(X(m),Si) maximal ist.
  7. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß zum Ermitteln der Filterkoeffizienten eine direkte Schätzung der spektralen Einhüllenden durch die mit der a posteriori Wahrscheinlichkeit p(Si|X(m)) gewichtete Mittelung aller Codebucheinträge erfolgt.
  8. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Beobachtungswahrscheinlichkeit durch ein Gauß'sches Mischmodell dargestellt wird.
  9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß in vorbestimmten Sprachabschnitten die Bandbreitenerweiterung deaktiviert wird.
  10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß eine Postfilterung des synthesegefilterten Signals durchgeführt wird.
  11. Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen mit: einer Eingabeeinrichtung zum Bereitstellen eines schmalbandigen Sprachsignals mit einer vorbestimmten Abtastrate; einem Analysefilter(AF) zum Durchführen einer Analysefilterung an dem abgetasteten Sprachsignal mit aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten, welche eine Erweiterung der Bandbreite der Einhüllenden bewirken; einer Restsignalerweiterungseinrichtung (RE) zum Durchführen einer Restsignalerweiterung an dem anlaysegefilterten Sprachsignal; und einem Synthesefilter (SF) zum Durchführen einer Synthesefilterung an dem restsignalerweitereten Sprachsignal zur Erzeugung eines breitbandigeren Sprachsignals mit den aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten; dadurch gekennzeichnet, daß eine Einhüllendenerweiterungseinrichtung (EE) vorgesehen ist, die die Filterkoeffizienten für die Analysefilterung und die Synthesefilterung durch einen Algorithmus aus einem im voraus trainierten Codebuch ermittelt.
  12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, daß das abgestastete schmalbandige Sprachsignal im Frequenzbereich 300 Hz bis 3,4 kHz liegt und das breitbandigere Sprachsignal im Frequenzbereich 50 Hz bis 7 kHz liegt.
  13. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, daß der Algorithmus der Einhüllendenerweiterungseinrichtung (EE) zur Ermittlung der Filterkoeffizienten folgende Funktionen ausführt: Aufstellen des Codebuchs unter Verwendung eines Hidden-Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Abhöngigkeit vom Zustand beschreibt; Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor für einen jeweiligen Zeitabschnitt; Vergleichen des Merkmalsvektors mit den statistischen Modellen; und Ermitteln der Filterkoeffizienten aufgrund des Vergleichsergebnisses.
  14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) beim Vergleichen durch mindestens eine der folgenden Wahrscheinlichkeiten berücksichtigt: die Beobachtungswahrscheinlichkeit des Auftretens des Merkmalsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand befindet; die Übergangswahrscheinlichkeit, daß die Quelle für das abgetastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands.
  15. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) zum Ermitteln der Filterkoeffizienten den Codebucheintrag verwendet, für den die Beobachtungswahrscheinlichkeit maximal ist.
  16. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) zum Ermitteln der Filterkoeffizienten den Codebucheintrag verwendet, für den die Verbundwahrscheinlichkeit p(X(m),Si) maximal ist.
  17. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) zum Ermitteln der Filterkoeffizienten eine direkte Schätzung der spektralen Einhüllenden durch die mit der a posteriori Wahrscheinlichkeit p(Si|X(m)) gewichtete Mittelung aller Codebucheinträge durchführt.
  18. Vorrichtung nach Anspruch 16, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) die Beobachtungswahrscheinlichkeit durch ein Gauß'sches Mischmodell darstellt.
  19. Vorrichtung nach einem der vorhergehenden Ansprüche 11 bis 18, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) in vorbestimmten Sprachabschnitten die Bandbreitenerweiterung deaktiviert.
DE10041512A 2000-08-24 2000-08-24 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen Expired - Lifetime DE10041512B4 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE10041512A DE10041512B4 (de) 2000-08-24 2000-08-24 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
PCT/EP2001/009125 WO2002017303A1 (de) 2000-08-24 2001-08-07 Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
US10/111,522 US7181402B2 (en) 2000-08-24 2001-08-07 Method and apparatus for synthetic widening of the bandwidth of voice signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10041512A DE10041512B4 (de) 2000-08-24 2000-08-24 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen

Publications (2)

Publication Number Publication Date
DE10041512A1 DE10041512A1 (de) 2002-03-14
DE10041512B4 true DE10041512B4 (de) 2005-05-04

Family

ID=7653597

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10041512A Expired - Lifetime DE10041512B4 (de) 2000-08-24 2000-08-24 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen

Country Status (3)

Country Link
US (1) US7181402B2 (de)
DE (1) DE10041512B4 (de)
WO (1) WO2002017303A1 (de)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
DE10116358A1 (de) * 2001-04-02 2002-11-07 Micronas Gmbh Vorrichtung und Verfahren zur Erfassung und Unterdrückung von Störungen
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7421304B2 (en) * 2002-01-21 2008-09-02 Kenwood Corporation Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method
AU2003216682A1 (en) * 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. Signal synthesizing
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4433668B2 (ja) * 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
DE10252070B4 (de) * 2002-11-08 2010-07-15 Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
DE10252327A1 (de) * 2002-11-11 2004-05-27 Siemens Ag Verfahren zur Erweiterung der Bandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals
KR100465318B1 (ko) * 2002-12-20 2005-01-13 학교법인연세대학교 광대역 음성신호의 송수신 장치 및 그 송수신 방법
US7519530B2 (en) * 2003-01-09 2009-04-14 Nokia Corporation Audio signal processing
US20040138876A1 (en) * 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
US8712768B2 (en) * 2004-05-25 2014-04-29 Nokia Corporation System and method for enhanced artificial bandwidth expansion
JP4446072B2 (ja) * 2004-07-23 2010-04-07 株式会社ディーアンドエムホールディングス オーディオ信号出力装置
DE102005000830A1 (de) * 2005-01-05 2006-07-13 Siemens Ag Verfahren zur Bandbreitenerweiterung
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US7698143B2 (en) * 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
US7778718B2 (en) * 2005-05-24 2010-08-17 Rockford Corporation Frequency normalization of audio signals
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
US20070005351A1 (en) * 2005-06-30 2007-01-04 Sathyendra Harsha M Method and system for bandwidth expansion for voice communications
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
EP1772855B1 (de) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Verfahren zur Erweiterung der Bandbreite eines Sprachsignals
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
WO2007087824A1 (de) * 2006-01-31 2007-08-09 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und anordnungen zur audiosignalkodierung
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US7885419B2 (en) * 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US8538050B2 (en) * 2006-02-17 2013-09-17 Zounds Hearing, Inc. Method for communicating with a hearing aid
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
US7519619B2 (en) * 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
US7912729B2 (en) 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
GB0705329D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
JPWO2009084221A1 (ja) * 2007-12-27 2011-05-12 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8326641B2 (en) * 2008-03-20 2012-12-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8831958B2 (en) * 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
DK2242045T3 (da) * 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
US9294060B2 (en) * 2010-05-25 2016-03-22 Nokia Technologies Oy Bandwidth extender
US8958510B1 (en) * 2010-06-10 2015-02-17 Fredric J. Harris Selectable bandwidth filter
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
GB2520867B (en) 2011-10-25 2016-05-18 Skype Ltd Jitter buffer
JP5949379B2 (ja) * 2012-09-21 2016-07-06 沖電気工業株式会社 帯域拡張装置及び方法
CN105551497B (zh) 2013-01-15 2019-03-19 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9319510B2 (en) * 2013-02-15 2016-04-19 Qualcomm Incorporated Personalized bandwidth extension
CN104050971A (zh) * 2013-03-15 2014-09-17 杜比实验室特许公司 声学回声减轻装置和方法、音频处理装置和语音通信终端
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9959888B2 (en) * 2016-08-11 2018-05-01 Qualcomm Incorporated System and method for detection of the Lombard effect
US10264116B2 (en) * 2016-11-02 2019-04-16 Nokia Technologies Oy Virtual duplex operation
CN110870006B (zh) * 2017-04-28 2023-09-22 Dts公司 对音频信号进行编码的方法以及音频编码器
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US10672382B2 (en) * 2018-10-15 2020-06-02 Tencent America LLC Input-feeding architecture for attention based end-to-end speech recognition

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
EP0878790A1 (de) * 1997-05-15 1998-11-18 Hewlett-Packard Company Sprachkodiersystem und Verfahren
EP0945852A1 (de) * 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Sprachsynthese

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
H. Carl, "Untersuchung verschiedener Methoden der Sprachcodierung und eine Anwendung zur Bandbreitenvergrößerung von Schmalband- Sprachsignalen", Dissertation, Ruhr-Universität Bochum, 1994 *
H. Hermansky, C. Avendano, E.A. Wan, "Noise Reduction and Recovery of Missing Frequencies in Speech", Proceedings 15th Annual Speech Research Symposium, 1995 *
M. Dietrich, "Performance and Implementation of a Robust ADPCM Algorithm for Wideband Speech Coding with 64 kBit/s", Proc. International Zürich Seminar Digital Communications, 1984
M. Dietrich, "Performance and Implementation of a Robust ADPCM Algorithm for Wideband Speech Coding with 64 kBit/s", Proc. International ZürichSeminar Digital Communications, 1984 *
M.G. Croll, "Sound Quality Improvement of Broadcast Telephone Calls", BBC Research Report RD1972/26, British Broadcasting Corporation, 1972
P.J. Patrick, "Enhancement of Bandlimited Speech Signals", Dissertation, Loughborough University of Technology, 1983
P.J. Patrick, "Enhancement of Bandlimited Speech Signals", Dissertation, Loughborough University ofTechnology, 1983 *
Y.M. Cheng, D. O'Shaugnessy, P. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband Speech", IEEE Transactions on Speech and Audio Processing, Band 2, Nr. 4, Okt. 1994 *

Also Published As

Publication number Publication date
US20030050786A1 (en) 2003-03-13
DE10041512A1 (de) 2002-03-14
WO2002017303A1 (de) 2002-02-28
US7181402B2 (en) 2007-02-20

Similar Documents

Publication Publication Date Title
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE102005032724B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE112009000805B4 (de) Rauschreduktion
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE60216214T2 (de) Verfahren zur Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
RU2447415C2 (ru) Способ и устройство для расширения ширины полосы аудиосигнала
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69123500T2 (de) 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal
DE60012760T2 (de) Multimodaler sprachkodierer
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE102008031150B3 (de) Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
DE112014000945B4 (de) Sprachbetonungsgerät
DE60124079T2 (de) Sprachverarbeitung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE

R081 Change of applicant/patentee

Owner name: LANTIQ DEUTSCHLAND GMBH, DE

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE

Effective date: 20110325

Owner name: LANTIQ BETEILIGUNGS-GMBH & CO. KG, DE

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE

Effective date: 20110325

R081 Change of applicant/patentee

Owner name: INTEL CORP., SANTA CLARA, US

Free format text: FORMER OWNER: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE

Owner name: LANTIQ BETEILIGUNGS-GMBH & CO. KG, DE

Free format text: FORMER OWNER: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE

R071 Expiry of right
R081 Change of applicant/patentee

Owner name: INTEL CORP., SANTA CLARA, US

Free format text: FORMER OWNER: LANTIQ BETEILIGUNGS-GMBH & CO. KG, 85579 NEUBIBERG, DE