DE69730779T2 - Verbesserungen bei oder in Bezug auf Sprachkodierung - Google Patents

Verbesserungen bei oder in Bezug auf Sprachkodierung Download PDF

Info

Publication number
DE69730779T2
DE69730779T2 DE69730779T DE69730779T DE69730779T2 DE 69730779 T2 DE69730779 T2 DE 69730779T2 DE 69730779 T DE69730779 T DE 69730779T DE 69730779 T DE69730779 T DE 69730779T DE 69730779 T2 DE69730779 T2 DE 69730779T2
Authority
DE
Germany
Prior art keywords
filter
speech
signals
power
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69730779T
Other languages
English (en)
Other versions
DE69730779D1 (de
Inventor
Alan V. Dallas McCree
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of DE69730779D1 publication Critical patent/DE69730779D1/de
Application granted granted Critical
Publication of DE69730779T2 publication Critical patent/DE69730779T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03LAUTOMATIC CONTROL, STARTING, SYNCHRONISATION OR STABILISATION OF GENERATORS OF ELECTRONIC OSCILLATIONS OR PULSES
    • H03L7/00Automatic control of frequency or phase; Synchronisation
    • H03L7/06Automatic control of frequency or phase; Synchronisation using a reference signal applied to a frequency- or phase-locked loop
    • H03L7/08Details of the phase-locked loop
    • H03L7/085Details of the phase-locked loop concerning mainly the frequency- or phase-detection arrangement including the filtering or amplification of its output signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

  • TECHNISCHES GEBIET DER ERFINDUNG
  • Diese Erfindung bezieht sich auf die Sprachcodierung und insbesondere auf die adaptive Filterung bei der Sprachcodierung mit niedriger Bitrate.
  • HINTERGRUND DER ERFINDUNG
  • Die menschliche Sprache besteht aus einem Strom akustischer Signale mit Frequenzen, die bis etwa 20 kHz reichen; das Band von etwa 100 Hz bis 5 kHz enthält jedoch die Masse der akustischen Energie. Die Telephonübertragung der menschlichen Sprache besteht ursprünglich aus der Umsetzung des analogen akustischen Signalstroms in einen analogen Spannungssignalstrom (z. B. unter Verwendung eines Mikrophons) für die Übertragung und aus der Rückumsetzung zurück in einen akustischen Signalstrom (z. B. unter Verwendung eines Lautsprechers). Die elektrischen Signale würden bandpassgefiltert, um nur das Frequenzband von 300 Hz bis 4 kHz beizubehalten, um die Bandbreite zu begrenzen und Niederfrequenzprobleme zu vermeiden. Die Vorteile der digitalen elektrischen Signalübertragung haben jedoch am Anfang der 1960er Jahre eine Umstellung auf die digitale Telephonübertragung angeregt. Die digitalen Telephonsignale werden typischerweise aus dem Abtasten analoger Signale bei 8 kHz und dem nichtlinearen Quantisieren der Abtastwerte mit 8-Bit-Codes entsprechend dem μ-Gesetz (Pulscodemodulation oder PCM) abgeleitet. Ein getakteter Digital/Analog-Umsetzer und ein Kompandierungsverstärker rekonstruieren ein analoges elektrisches Signal aus dem Strom der 8-Bit-Abtastwerte. Derartige Signale erfordern Übertragungsraten von 64 kbit/s (Kilobits pro Sekunde), wobei dies die frühere Übertragungsbandbreite für analoge Signale übersteigt.
  • Die Speicherung der Sprachinformationen in einem analogen Format (z. B. auf einem Magnetband in einem Telephonanruflieantworter) kann ebenfalls durch die digitale Speicherung ersetzt werden. Die Speicheranforderungen können jedoch überwältigend werden: 10 Minuten einer bei 8 kHz abgetasteten 8-Bit-PCM würden etwa 5 MB (Megabytes) Speicher erfordern.
  • Der Bedarf an niedrigeren Übertragungsraten und Speicheranforderungen hat zur Entwicklung der Komprimierung für Sprachsignale geführt. Ein Zugang zu Sprachkomprimierungsmodellen umfasst die physiologische Erzeugung von Sprache und reduziert dadurch die notwendigen Informationen, die übertragen und gespeichert werden müssen. Insbesondere nimmt das lineare Spracherzeugungsmodell die Erregung eines variablen Filters (das etwa den Stimmapparat darstellt) entweder durch einen Impulszug mit der Tonhöhenperiode P (für stimmhafte Töne) oder durch weißes Rauschen (für stimmlose Töne), gefolgt von einer Verstärkung, um die Lautstärke einzustellen, an. Der Term 1/A(z) bezeichnet üblicherweise die z-Transformation der Übertragungsfunktion des Filters. Das Modell erzeugt einen Strom von Tönen, indem es einfach periodisch eine Stimmhaft-/Stimmlos-Entscheidung trifft, die die Filterkoeffizienten und die Verstärkung einstellt. Im Allgemeinen siehe Markel und Gray, Linear Prediction of Speech, (Springer-Verlag 1976).
  • Um die Bitrate zu verringern, können die Koeffizienten für aufeinander folgende Rahmen interpoliert werden. Um jedoch die Tonqualität zu verbessern, müssen weitere Informationen aus der Sprache extrahiert, komprimiert und übertragen oder gespeichert werden. Das lineare Codebuch-Erregungsprädiktions-Verfahren (CELP-Verfahren) analysiert z. B. zuerst einen Sprachrahmen, um A(z) zu finden und die Sprache zu filtern. Als Nächstes wird eine Bestimmung der Tonhöhenperiode ausgeführt, wobei ein Kammfilter diese Periodizität beseitigt, um ein Erregungssignal zu liefern, das wie Rauschen aussieht. Dann werden die Erregungssignale in einem Codebuch codiert. Folglich überträgt die CELP die LPC-Filterkoeffizienten, die Tonhöhe und den Codebuch-Index der Erregung.
  • Ein weiterer Zugang ist, die stimmhaften und die stimmlosen Erregungen für das LPC-Filter zu mischen. McCree, A New LPC Vocoder Model for Low Bit Rate Speech Coding, Doktorarbeit, Georgia Institute of Technology, August 1992, unterteilt z. B. den Erregungsfrequenzbereich in Bänder, trifft eine Stimm haft-/Stimmlos-Mischungsentscheidung in jedem Band separat und kombiniert die Ergebnisse für die Gesamterregung. Ein Vocoder für gemischte lineare Erregungsprädiktionskoeffizienten (MELP-Koeffizienten) ist in einem Artikel von A. McCree u. a. mit dem Titel "A Mixed Excitation LPC Vocoder Model for Low Bit Rate Speech Coding", in IEEE Trans. on Speech and Audio Proc., Bd. 3, Nr. 4, Juli 1995, beschrieben.
  • Die meisten Sprachcodierer mit niedriger Bitrate verwenden irgendeine Form eines adaptiven spektralen Verbesserungsfilters oder Nachfilters, um die wahrgenommene Qualität des verarbeiteten Sprachsignals zu verbessern. Im gemischten linearen Erregungsprädiktions-Sprachcodierer (MELP-Sprachcodierer) in McCree u. a. wird ein adaptives Pol-/Nullstellen-Verbesserungsfilter, das auf dem LPC-Spektrum basiert, verwendet. Das adaptive spektrale Verbesserungsfilter unterstützt die Anpassung der bandpassgefilterten Sprache an die natürlichen Sprachsignalformen im Formantenbereich. Dieses obenbeschriebene adaptive Filter verbessert die Sprachqualität für reine Eingangssignale, aber beim Vorhandensein von akustischem Rauschen kann dieses Filter die Leistung tatsächlich verschlechtern. Das Verbesserungsfilter neigt dazu, die Fluktuationen im Leistungsspektrum des akustischen Hintergrundrauschens zu vergrößern, dies verursacht einen unnatürlichen "wirbelnden" Effekt, der für die Zuhörer sehr ärgerlich sein kann. Ein ähnlicher Effekt tritt im Nachfilter des CELP-Sprachcodierers auf.
  • Gemäß einer Aufgabe der vorliegenden Erfindung wird eine Verbesserung an diesem adaptiven spektralen Verbesserungsfilter oder Nachfilter in der CELP geschaffen, die zu einer besseren Leistung beim Vorhandensein von akustischem Rauschen führt, während die Qualitätsverbesserung des vorhandenen Verfahrens für reine Sprachsignale aufrechterhalten wird.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Filterungsverfahren zum Verbessern digital verarbeiteter Sprachsignale geschaffen, mit: Erzeugen eines Signalwahrscheinlichkeitsschätzwertes sig-prob anhand eines Vergleichs der Leistung der Sprachsignale in einem momentanen Rahmen mit einer langfristigen Schätzung der Rauschleistung; erstes Filtern der Sprachsignale durch eine Verzögerung, die durch lineare Prädiktionskoeffizienten und den Signalwahrscheinlichkeitswert gesteuert wird; und zweites Filtern der Sprachsignale durch eine Übertragungsfunktion der Form: 1 - μz–1 × Signalwahrscheinlichkeitswert, wobei μ ein Skalierungsfaktor ist und z–1 ein Einheitsverzögerungsoperator ist. Da das Filtern durch lineare Prädiktionskoeffizienten-Parameter und die geschätzte Wahrscheinlichkeit, dass der Eingangsrahmen Sprache anstatt Hintergrundrauschen ist, gesteuert wird, werden die Vorteile des Filterns für reine Sprachsignale verwirklicht, ohne in das verarbeitete Hintergrundrauschen falsche Abtastwerte einzufügen.
  • Gemäß einem zweiten Aspekt der Erfindung wird ein Filter zum Verbessern digital verarbeiteter Sprachsignale geschaffen, mit: Mitteln zum Erzeugen eines Signalwahrscheinlichkeitsschätzwertes anhand eines Vergleichs der Leistung der Sprachsignale in einem momentanen Rahmen mit einer langfristigen Schätzung der Rauschleistung; einem ersten Filter zum Filtern der Sprachsignale durch eine Verzögerung, die durch lineare Prädiktionskoeffizienten und den Signalwahrscheinlichkeitsschätzwert gesteuert wird; und einem zweiten Filter, das die Übertragungsfunktion der Form 1 – μz–1 × Signalwahrscheirilichkeitsschätzwert besitzt, wobei u ein Skalierungsfaktor ist und z–1 ein Einheitsverzögerungsoperator ist.
  • BESCHREIBUNG DER ZEICHNUNG
  • Diese und andere Merkmale der Erfindung werden für die Fachleute auf dem Gebiet aus der folgenden ausführlichen Beschreibung der Erfindung, zusammengenommen mit der beigefügten Zeichnung, offensichtlich sein werden, worin:
  • 1 ein allgemeiner Blockschaltplan eines Sprachkommunikationssystems ist;
  • 2 ein Blockschaltplan des Sprachanalysators nach 1 ist;
  • 3 ein Blockschaltplan eines Synthetisierers ist;
  • 4ad natürliche Sprache gegen zerfallende Signalformen veranschaulichen, wobei 4a einen ersten Formanten eines Vokals der natürlichen Sprache veranschaulicht; 4b eine synthetische exponentiell zerfallende Resonanz veranschaulicht; 4c die Impulsantwort des Pol-/Nullstellen-Verbesserungsfilters für diese Resonanz veranschaulicht; und 4d die verbesserte zerfallende Resonanz veranschaulicht;
  • 5 ein Blockschaltplan der adaptiven spektralen Verbesserung gemäß einer Ausführungsform der vorliegenden Erfindung ist; und
  • 6 ein Ablaufplan der Signalwahrscheinlichkeits-Schätzeinrichtung ist.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • Das gesamte Sprachkommunikationssystem mit niedriger Bitrate ist in 1 veranschaulicht, in der die Eingangssprache durch einen Analog/Digital-Umsetzer (A/D-Umsetzer) abgetastet wird, wobei die Parameter codiert und zum Analysator 600 geschickt werden, wobei sie über den Speicher und den Übertragungskanal zum Synthetisierer 500 geschickt werden. Die decodierten Signale vom Synthetisierer 500 werden durch den Digital/Analog-Umsetzer (DAC) zurück in Signale für den Lautsprecher umgesetzt. In 2 sind einige Blöcke des Analysators veranschaulicht. Die analoge Eingangssprache wird im Umsetzer 620 in digitale Sprache umgesetzt und an einen Sprachanalysator angelegt, der eine LPC-Extraktionseinrichtung 602, eine Tonhöhenperioden-Extraktionseinrichtung 604, eine Jitter-Extraktionseinrichtung 606, eine Stimmhaft-/Stimmlos-Mischungssteuerungs-Extraktionseinrichtung 608, eine Verstärkungs-Extraktionseinrichtung 610 und einen Codierer 612, um diese fünf Blockeingänge von 602610 und die Ausgaben zusammenzusetzen und um sie codiert über einen Übertragungskanal getaktet auszugeben. Am Synthetisierer 500 befindet sich der Decodierer 536, der die codierte Sprache vom Codierer 612 decodiert, um die LPC-Parameter, die Tonhöhe, die Mischung, die Jitter-Merker und die Verstärkung bereitzustellen.
  • In 3 ist ein MELP-Vocoder gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht, der in der US-Patentanmeldung, EingangsNr. 08/218.003, eingereicht am 25. März 1994, beschrieben ist, wobei er zu dem im oben zitierten Artikel von McCree u. a. ähnlich ist. Der Synthetisierer 500 enthält einen Generator 502 für periodische Impulszüge, der durch eine Tonhöhenperiodeneingabe vom Decodierer 536 gesteuert wird, einen Impulszugverstärker 504, der durch eine Verstärkungseingabe vom Decodierer 536 gesteuert wird, einen Impuls-Jitter-Generator 506, der durch eine Merkereingabe vom Jitter-Ausgang des Decodierers 536 gesteuert wird, und ein Impulsfilter 508, das durch Fünfband-Stimmhaft-/Stimmlos-Mischungseingaben vom Decodierer 536 gesteuert wird. Der Synthetisierer 500 enthält ferner einen Generator 512 für weißes Rauschen, einen Verstärkungs-Verstärker, der außerdem durch die gleiche Verstärkungseingabe gesteuert wird, ein Rauschfilter 518, das außerdem durch dieselben Fünfband-Stimmhaft-/Stimmlos-Mischungseingaben gesteuert wird, und einen Addierer 520, um den gefilterten Impuls und das Rauschen zu kombinieren. Das Ausgangssignal des Addierers ist das gemischte Erregungssignal e(n), das an ein adaptives spektrales Verbesserungsfilter 530 angelegt wird, das zu den Formanten Betonung hinzufügt, um e'(n) zu erzeugen. Diese Ausgabe wird an das durch 10 LPC-Koeffizienten gesteuerte LPC-Synthesefilter 532 angelegt. Das Ausgangssignal von diesem wird im Verstärker 533 mit der Verstärkung vom Decodierer 536 verstärkt und an ein Impulsdispersionsfilter 534 angelegt, um digitale synthetische Sprache zu erhalten. Diese digitalisierte Sprache wird dann unter Verwendung eines Digital/Analog-Umsetzers (DAC) 540 in analoge Sprache für einen Lautsprecher umgesetzt. Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung wird das Ausgangssignal e(n) des Addierers an ein durch 10 LPC-Koeffizienten gesteuertes Synthesefilter 532 angelegt, wobei das Ausgangssignal des LPC-Filters an das adaptive Verbesserungsfilter 530 angelegt wird, um zu den Formanten Betonung hinzuzufügen, um e'(n) zu erzeugen.
  • Gemäß einer Ausführungsform der vorliegenden Erfindung verbessert die vorliegende Erfindung das adaptive spektrale Verbesserungsfilter 530. Das adap tive spektrale Verbesserungsfilter 530 im MELP-Codierer ist ein Pol-/Nullstellen-Filter, das auf den LPC-Filterkoeffizienten basiert. Dieses adaptive Filter unterstützt die Anpassung der bandpassgefilterten synthetischen Sprache an die natürlichen Sprachsignalformen in den Formanten-Bereichen. Typische Formanten-Resonanzen zerfallen in der Zeit zwischen den Tonhöhenimpulsen entweder in natürlicher oder in synthetischer Sprache normalerweise nicht vollständig, aber die synthetischen Sprachsignalformen erreichen ein tieferes Tal zwischen den Spitzen als dies natürliche Sprachsignalformen tun. Dies wird wahrscheinlich durch die Unfähigkeit der Pole im LPC-Synthesefilter verursacht, die Merkmale der Formanten-Resonanzen in der natürlichen menschlichen Sprache zu reproduzieren. Es gibt zwei mögliche Gründe für dieses Problem. Ein Grund könnte die ungeeignete LPC-Polbandbreite sein; das synthetische Zeitsignal kann zu schnell zerfallen, weil der LPC-Pol eine schwächere Resonanz als der wahre Formant besitzt. Eine andere mögliche Erklärung ist, dass die wahre Formanten-Bandbreite sich innerhalb der Tonhöhenperiode ein wenig verändern kann, und dass die synthetische Sprache dieses Verhalten nicht nachahmen kann.
  • Das adaptive spektrale Verbesserungsfilter im oben zitierten McCree-Artikel aus dem Juli 1995 schafft eine einfache Lösung für das Problem der Anpassung der Formanten-Signalformen. Ein adaptives Pol-/Nullstellen-Filter wird in CELP-Codierern allgemein verwendet, weil es dafür vorgesehen ist, das Quantisierungsrauschen zwischen den Formanten-Frequenzen zu verringern. Siehe den Artikel von Chen u. a. mit dem Titel "Real-Time Vector APC Speech Coding at 4800 bps with Adaptive Post Filtering", in Proc. IEEE Int. Conf. Accost, Speech Signal Processing, Dallas 1987, S. 2185-2188. Siehe außerdem Campbell u. a. mit dem Titel "The DOD 4.8 kps Standard (proposed Federal Standard 1016)", in Advances in Speech Coding, Norwell, MA: Kluwer, 1991, S. 121 – 133. Die Pole werden durch eine Bandbreiten-erweiterte Version des LPC-Synthesefilters mit a gleich 0,8 erzeugt. Entsprechend dem McCree-Artikel wird, weil dieses Allpolfilter eine störende Tiefpassfilterungswirkung durch das Vergrößern der spektralen Neigung einfügt, ein mit α gleich 0,5 berechnetes schwächeres Dauernullfilter verwendet, um die Neigung des Gesamtfilters zu verringern, ohne die Formanten- Verbesserung zu verringern. Außerdem wird ein einfaches FIR-Filter erster Ordnung verwendet, um die Tiefpass-Dämpfungswirkung weiter zu verringern. Im LPC-Vocoder mit gemischter Erregung besitzt das Verringern des Quantisierungsrauschens keine Bedeutung, aber die Eigenschaften im Zeitbereich dieses Filters erzeugen eine Wirkung, die zur tonhöhensynchronen Polbandbreitenmodulation ähnlich ist. Wie in 4 gezeigt ist, besitzt eine einfache zerfallende Resonanz einen weniger abrupten Einsatz im Zeitbereich, wenn dieses Verbesserungsfilter angewendet wird. Dieses Merkmal erlaubt eine bessere Anpassung der Sprachausgabe des LPC-Vocoders an die Bandpass-Signalformeigenschaften der natürlichen Sprache in den Formanten-Bereichen, wobei es die wahrgenommene Qualität der synthetischen Sprache verbessert.
  • Wie oben erörtert worden ist, sind die Pole des Verbesserungsfilters die um einen Faktor von 0,8 in der z-Ebene zum Einheitskreis verschobenen Pole des LPC-Filters. Gemäß der vorliegenden Erfindung wird, weil dieses Allpolfilter für sich allein in das verarbeitete Sprachsignal eine dämpfende Eigenschaft einfügt, ein schwächeres Dauernullfilter in Kaskade verwendet, um die durch die Pole eingefügte spektrale Neigung zu kompensieren. Außerdem wird in das Filter eine weitere Nullstelle aufgenommen, um die spektrale Neigung weiter zu verringern. Chen u. a. verwendeten im US-Patent Nr. 4.969.192 mit dem Titel "Vector Adaptive Predictive Coder for Speech and Audio" ein zweites Filter in einem Nachfilter in einem CELP-Sprachcodierer.
  • Das Problem bei diesem vorhandenen Verfahren ist, dass es die im akustischen Hintergrundrauschen vorhandenen Fluktuationen vergrößert. Das neue Verfahren, das hierin gelehrt wird, passt die Stärke des spektralen Verbesserungsfilters anhand eines Schätzwertes der Wahrscheinlichkeit, dass der momentane Eingangsrahmen Sprache anstatt Hintergrundrauschen ist, an. Diese Wahrscheinlichkeit wird geschätzt, indem die Leistung im momentanen Sprachrahmen mit einer langfristigen Schätzung der Rauschleistung verglichen wird. Um mögliche Unstetigkeiten aus dem "EIN"- und "AUS"-Schalten des Verbesserungsfilters zu verhindern, verändert sich die Stärke des Filters über einen Bereich der Signalwahr scheinlichkeiten allmählich von überhaupt keiner Filterung zur vollen spektralen Verbesserung.
  • In 5 ist ein Blockschaltplan des verbesserten Verbesserungsfilters gemäß der vorliegenden Erfindung veranschaulicht. Das gemischte Erregungssignal e(n) wird an das Filter 62 angelegt, das durch die LPC-Koeffizienten gesteuert wird und das die Übertragungsfunktion
    Figure 00090001
    besitzt, wobei z die Inverse des Einheitsverzögerungsoperators z–1 ist, während α und β empirisch mit einem Kompromiss zwischen spektralen Spitzen, die Chirpen erzeugen, und dem Nichterreichen der spektralen Verbesserung bestimmte Koeffizienten sind. Die Prädiktionsfilterkoeffizienten 1 - P(z) sind gleich den Analysefilterkoeffizienten A(z). Der Frequenzgang in Hz ist der Unterschied zwischen den Frequenzgängen von zwei Allpolfiltern wie:
  • Figure 00090002
  • Im früheren McCree-Artikel umfassen die Werte für das Verbesserungsfilter ein erstes Filter mit β = 0,5 und α = 0,8 und ein zweites Filter mit einer Übertragungsfunktion von 1 - μz–1. Gemäß der vorliegenden Erfindung wird für das erste Filter der Signalwahrscheinlichkeitswert (sig-prob) von der Signalwahrscheinlichkeits-Schätzeinrichtung 63 mit dem β von 0,5 multipliziert (×) und mit dem α von 0,8 multipliziert (×), oder ß = 0,5 × sig-prob (Signalwahrscheinlichkeit, wie sie durch die Schätzeinrichtung gemessen worden ist) und α = 0,8 × sig-prob im Filter 62. Das Ausgangssignal des Filters 62 ist an ein zweites Filter 65 gekoppelt, das die Übertragungsfunktion von 1 - μz–1, multipliziert (×) mit sig-prob, besitzt, wobei μ typischerweise 0,5 multipliziert (×) mit k(1) ist. Der Term k(1) ist der erste Reflexionskoeffizient. Die Signalwahrscheinlichkeits-Schätzeinrichtung 63 bestimmt in Reaktion auf die Verstärkung vom Analysator (610 in 4, decodiert von 536 nach 2), ob die Leistung im momentanen Rahmen mit einer langfristigen Schätzung der Rauschleistung zu vergleichen ist. Ein Ablaufplan der Schätzeinrichtung ist in 6 gezeigt. Die Schätzeinrichtung 63 setzt einige Zeitkonstanten und Schrittgrößen und vergleicht dann den Logarithmus der Verstärkung mit der Rauschverstärkung + 30 dB. Falls der Leistungspegel höher als die Rauschverstärkung + 30 dB ist, wird sig-prob auf 1 gesetzt, während sig-prob auf null gesetzt wird, um keine Filterung zu haben, falls der Leistungspegel niedriger als die Rauschverstärkung + 12 dB ist. In dieser Weise wird das erste Filter angewendet, falls ein Signal vorhanden ist, aber nicht, falls Rauschen vorhanden ist. Falls die Verstärkung zwischen diesen Extremen liegt, ist der Wert von sig-prob gleich (logarithmische Verstärkung – 12 dB – Rauschverstärkung) geteilt durch 18. Dies ist ein linearer Sägezahnwert zwischen 0 und 1 bzw. zwischen 12 dB und 30 dB. Dieser "sig-prob" wird der Multiplikator für α, β und μ. Die Zeitkonstanten werden gewählt, um das Sprachsignal herauszumitteln und den Wert des Störpegels zu approximieren.
  • In einer Echtzeitimplementierung eines 2,4-kb/s-MELP-Codierers, der in einem TMS320C31-DSP-Chip ausgeführt wird, führt dieses verbesserte adaptive spektrale Verbesserungsverfahren zu einer deutlichen Verbesserung der Sprachqualität für verrauschte Eingangssprache, während dieselbe Qualität wie beim vorhandenen Verfahren für reine Eingangssignale aufrechterhalten wird.
  • Die Schätzeinrichtung 63 kann Teil des Prozessor-Chips sein, der einen Code ausführt, der dem Pseudo-Code im Folgenden folgt:
  • Figure 00100001
  • Figure 00110001
  • Figure 00120001
  • Es wird angemerkt, dass dieses Verfahren leicht in anderen Sprachcodierungsanwendungen angewendet werden kann, in denen eine spektrale Verbesserung oder Nachfilterung erwünscht ist.
  • Chen u. a. beschrieben im oben zitierten US-Patent Nummer 4.969.192 ein Nachfilter, in dem die Werte für das erste Filter β = 0,5 und α = 0,8 sind, während die Übertragungsfunktion des zweiten Filters 1 - μz–1 ist. Entsprechend den Lehren hierin ist das Nachfilter 32a mit kurzer Verzögerung, wenn es modifiziert ist, wie oben erörtert worden ist, um Rechenschaft darüber abzulegen, dass die geschätzte Wahrscheinlichkeit Sprache anstatt Hintergrundrauschen ist, so, dass für das erste Filter β = 0,5 × sig-prob und α = 0,8 × sig-prob gilt. Das zweite Filter würde die Übertragungsfunktion μz–1 × sig-prob besitzen, wobei μ gleich 0,5 μ k(1) ist, wobei k(1) der erste Reflexionskoeffizient ist.
  • Obwohl die vorliegende Erfindung und ihre Vorteile ausführlich beschrieben worden sind, sollte es selbstverständlich sein, dass verschiedene Änderungen, Ersetzungen und Umgestaltungen daran vorgenommen werden können, ohne vom Umfang der Erfindung abzuweichen.

Claims (23)

  1. Filterungsverfahren zum Verbessern digital verarbeiteter Sprachsignale, das die folgenden Schritte umfasst: Erzeugen (83) eines Signalwahrscheinlichkeitsschätzwertes (sig-prob) anhand eines Vergleichs der Leistung der Sprachsignale in einem momentanen Rahmen mit einer langfristigen Schätzung der Rauschleistung; erstes Filtern (62) der Sprachgsignale durch eine Verzögerung, die durch lineare Prädiktionskoeffizienten und den Signalwahrscheinlichkeitsschätzwert gesteuert wird; und zweites Filtern (65) der Sprachsignale durch eine Übertragungsfunktion der Form: 1 - μz–1 × Signalwahrscheinlichkeitsschätzwert wobei μ ein Skalierungsfaktor ist und z–1 ein Einheitsverzögerungsoperator ist.
  2. Filterungsverfahren nach Anspruch 1, bei dem der Schritt des Erzeugens eines Signalwahrscheinlichkeitsschätzwertes das Erzeugen eines Signalwahrscheinlichkeitsschätzwertes von 1, falls die logarithmische Verstärkung der Leistung der Signale größer als die Rauschverstärkung plus 30 dB ist, umfasst.
  3. Filterungsverfahren nach Anspruch 1 oder 2, bei dem der Schritt des Erzeugens eines Signalwahrscheinlichkeitsschätzwertes das Erzeugen eines Signalwahrscheinlichkeitsschätzwertes von null, falls die logarithmische Verstärkung der Leistung niedriger als die Rauschleistung plus 12 dB ist, umfasst.
  4. Filterungsverfahren nach einem vorhergehenden Anspruch, bei dem der Schritt des Erzeugens eines Signalwahrscheinlichkeitsschätzwertes das Erzeugen eines Signalwahrscheinlichkeitsschätzwertes, der gleich (logarithmische Verstärkung – 12 – Rauschverstärkung)/18 ist, falls die logarithmische Verstärkung der Leistung höher als die Rauschverstärkung plus 12 dB und niedriger als die Rauschverstärkung plus 30 dB ist, umfasst.
  5. Filterungsverfahren nach einem vorhergehenden Anspruch zum Verbessern digital verarbeiteter Sprach- oder Audiosignale, wobei vor dem Schritt des Erzeugens eines Signalwahrscheinlichkeitsschätzwertes das Verfahren die folgenden Schritte umfasst: Puffern der Sprach- oder Audiosignale in Rahmen von Vektoren, wobei jeder Vektor K aufeinander folgende Abtastwerte besitzt; und Ausführen einer Analyse der gepufferten Rahmen von Sprach- oder Audiosignalen in vorgegebenen Blöcken, um lineare Prädiktionskoeffizienten und die Leistung in dem momentanen Rahmen zu berechnen; wobei das erste Filtern unter Verwendung einer Übertragungsfunktion der Form
    Figure 00140001
    ausgeführt wird, wobei 1 – P der LPC-Koeffizient ist, z die Inverse des Einheitsverzögerungsoperators ist, der in der Transformationsdarstellung der Übertragungsfunktionen verwendet wird, und α sowie β Skalierungsfaktoren × sig-prob sind.
  6. Filterungsverfahren nach Anspruch 5, das ferner das Setzen von sig-prob auf 1, falls die logarithmische Verstärkung höher als die Rauschverstärkung plus 30 dB ist, umfasst.
  7. Filterungsverfahren nach Anspruch 5 oder 6, das ferner das Setzen von sig-prob auf null, falls die logarithmische Verstärkung niedriger als die Rauschverstärkung plus 12 dB ist, umfasst.
  8. Filterungsverfahren nach einem der Ansprüche 1 bis 4, bei dem der Schritt
    Figure 00150001
    wobei P der vorhergesagte Wert ist, α und β Skalierungsfaktoren sind, z die Inverse der Einheitsverzögerung z–1 ist und μ ein Skalierungsfaktor ist.
  9. Filterungsverfahren nach einem vorhergehenden Anspruch, bei dem der Schritt des ersten Filterns das Ausführen der Übertragungsfunktion mit α = 0,8, β = 0,5 umfasst.
  10. Filterungsverfahren nach einem vorhergehenden Anspruch, bei dem der erste Filterungsschritt das Ausführen der Übertragungsfunktion umfasst, wobei μ gleich 0,5 × k(1) ist, wobei k(1) der erste Reflexionskoeffizient ist.
  11. Filter zum Verbessern digital verarbeiteter Sprachsignale, mit: Mitteln (63) zum Erzeugen eines Signalwahrscheinlichkeitsschätzwertes (sigprob) anhand eines Vergleichs der Leistung der Sprachsignale in einem momentanen Rahmen mit einer langfristigen Schätzung der Rauschleistung; einem ersten Filter (62) zum Filtern der Sprachsignale durch eine Verzögerung, die durch lineare Prädiktionskoeffizienten und den Signalwahrscheinlichkeitsschätzwert gesteuert wird; und einem zweiten Filter (65), das die Übertragungsfunktion der Form 1 - μz–1 × Signalwahrscheinlichkeitsschätzwert besitzt, wobei μ ein Skalierungsfaktor ist und z–1 ein Einheitsverzögerungsoperator ist.
  12. Filter nach Anspruch 11, bei dem der Signalwahrscheinlichkeitsschätzwert gleich 1 ist, falls die logarithmische Verstärkung der Leistung der Signale größer als die Rauschleistung plus 30 dB ist.
  13. Filter nach Anspruch 11 oder 12, bei dem der Signalwahrscheinlichkeitsschätzwert null ist, falls die logarithmische Verstärkung der Leistung kleiner als die Rauschverstärkung plus 12 dB ist.
  14. Filter nach einem der Ansprüche 11 bis 13, bei dem der Signalwahrscheinlichkeitswert dann, wenn die logarithmische Verstärkung der Leistung größer als die Rauschverstärkung plus 12 dB und kleiner als die Rauschverstärkung plus 30 dB ist, gleich (log Verstärkung – 12 – Rauschverstärkung)/18 ist.
  15. Filter nach einem der Ansprüche 11 bis 14, bei dem das erste Filter eine
    Figure 00160001
    Wert ist, α und β Skalierungsfaktoren sind, z die Inverse der Einheitsverzögerung z–1 ist und μ ein Skalierungsfaktor ist.
  16. Filter nach Anspruch 15, bei dem α = 0,8, β = 0,5.
  17. Filter nach Anspruch 15 oder 16, bei dem μ gleich 0,5 × k(1), wobei k(1) der erste Reflexionskoeffizient ist.
  18. Sprachkommunikationssystem mit niedriger Bitrate für die Übertragung von Sprachsignalen, mit: Mitteln zum Puffern der Sprachsignale in Rahmen von Vektoren, wobei jeder Vektor aufeinander folgende Abtastwerte besitzt; Mitteln zum Ausführen einer Analyse der gepufferten Rahmen von Sprach- oder Audiosignalen in vorgegebenen Blöcken, um codierte Sprache einschließlich linearer Prädiktionskoeffizienten und der Leistung im momentanen Rahmen zu berechnen; Mitteln zum Übertragen der codierten Sprache über einen Übertragungskanal; einem Synthetisierer, der mit den Mitteln zum Übertragen gekoppelt ist und in Reaktion auf die codierte Sprache die Sprache in digitale Signale decodiert; und Digital/Analog-Umsetzermitteln, die in Reaktion auf die digitalen Signale vom Synthetisierer Sprachsignale bereitstellen, wobei der Synthetisierer ein Filter zum Verbessern digital verarbeiteter Sprachsignale nach Anspruch 15 umfasst.
  19. System nach Anspruch 18, bei dem β gleich 0,5 und α gleich 0,8 ist und μ gleich 0,5 k(1) ist, wobei k(1) der erste Reflexionskoeffizient ist.
  20. System nach Anspruch 18 oder 19, bei dem der Synthetisierer ein LPC-Filter, das durch LPC-Koeffizienten gesteuert wird, enthält.
  21. System nach Anspruch 20, bei dem das Filter zum Verbessern der digital verarbeiteten Sprachsignale vor dem LPC-Filter angeordnet ist.
  22. System nach Anspruch 20, bei dem das Filter zum Verbessern digital verarbeiteter Sprachsignale nach dem LPC-Filter angeordnet ist.
  23. System nach einem der Ansprüche 18 bis 22, wobei das System ein MELP-Codierer ist.
DE69730779T 1996-06-19 1997-06-11 Verbesserungen bei oder in Bezug auf Sprachkodierung Expired - Lifetime DE69730779T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US2033796P 1996-06-19 1996-06-19
US20337P 1996-06-19

Publications (2)

Publication Number Publication Date
DE69730779D1 DE69730779D1 (de) 2004-10-28
DE69730779T2 true DE69730779T2 (de) 2005-02-10

Family

ID=21798075

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69730779T Expired - Lifetime DE69730779T2 (de) 1996-06-19 1997-06-11 Verbesserungen bei oder in Bezug auf Sprachkodierung

Country Status (6)

Country Link
US (1) US5966689A (de)
EP (1) EP0814458B1 (de)
JP (1) JPH1145100A (de)
KR (1) KR100421160B1 (de)
DE (1) DE69730779T2 (de)
TW (1) TW416044B (de)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
EP0998166A1 (de) * 1998-10-30 2000-05-03 Koninklijke Philips Electronics N.V. Anordnung zur Verarbeitung von Audiosignalen, Empfänger und Verfahren zum Filtern und Wiedergabe eines Nutzsignals in Gegenwart von Umgebungsgeräusche
US7295974B1 (en) * 1999-03-12 2007-11-13 Texas Instruments Incorporated Encoding in speech compression
JP2001175298A (ja) * 1999-12-13 2001-06-29 Fujitsu Ltd 騒音抑圧装置
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
US6529867B2 (en) * 2000-09-15 2003-03-04 Conexant Systems, Inc. Injecting high frequency noise into pulse excitation for low bit rate CELP
EP1199812A1 (de) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Kodierung der akustischen Signale mit Verbesserung der Wahrnehmung
US7139711B2 (en) * 2000-11-22 2006-11-21 Defense Group Inc. Noise filtering utilizing non-Gaussian signal statistics
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
SE521693C3 (sv) * 2001-03-30 2004-02-04 Ericsson Telefon Ab L M En metod och anordning för brusundertryckning
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
US7103541B2 (en) * 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
KR100630112B1 (ko) * 2002-07-09 2006-09-27 삼성전자주식회사 이동통신시스템의 적응형 채널 추정장치 및 방법
US20050071154A1 (en) * 2003-09-30 2005-03-31 Walter Etter Method and apparatus for estimating noise in speech signals
AU2006232364B2 (en) * 2005-04-01 2010-11-25 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
TWI317933B (en) * 2005-04-22 2009-12-01 Qualcomm Inc Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same
KR101565919B1 (ko) 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
US20080120098A1 (en) * 2006-11-21 2008-05-22 Nokia Corporation Complexity Adjustment for a Signal Encoder
US8126707B2 (en) * 2007-04-05 2012-02-28 Texas Instruments Incorporated Method and system for speech compression
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
US8842846B2 (en) * 2009-03-18 2014-09-23 Texas Instruments Incorporated Method and apparatus for polarity detection of loudspeaker
EP2246845A1 (de) * 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Verfahren und akustische Signalverarbeitungsvorrichtung zur Schätzung von linearen prädiktiven Kodierungskoeffizienten
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
KR101696632B1 (ko) 2010-07-02 2017-01-16 돌비 인터네셔널 에이비 선택적인 베이스 포스트 필터
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
KR102060208B1 (ko) 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3702215A1 (de) * 1987-01-26 1988-08-04 Ant Nachrichtentech Uebertragungsanordnung fuer digitale signale
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5408529A (en) * 1993-06-02 1995-04-18 Motorola, Inc. Dual tone detector operable in the presence of speech or background noise and method therefor

Also Published As

Publication number Publication date
EP0814458A3 (de) 1998-09-23
KR100421160B1 (ko) 2004-05-24
JPH1145100A (ja) 1999-02-16
EP0814458B1 (de) 2004-09-22
TW416044B (en) 2000-12-21
US5966689A (en) 1999-10-12
DE69730779D1 (de) 2004-10-28
EP0814458A2 (de) 1997-12-29
KR980006936A (ko) 1998-03-30

Similar Documents

Publication Publication Date Title
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE3856211T2 (de) Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen
DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE60011051T2 (de) Celp-transkodierung
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69928288T2 (de) Kodierung periodischer sprache
DE60120734T2 (de) Vorrichtung zur erweiterung der bandbreite eines audiosignals
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
EP2022043B1 (de) Informationssignalcodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60129544T2 (de) Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE102005032724B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
EP0673013B1 (de) System zum Kodieren und Dekodieren von Signalen
DE69932593T2 (de) Dekodierungsverfahren und system mit einem adaptiven postfilter
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition