DE69629485T2 - Kompressionsystem für sich wiederholende töne - Google Patents

Kompressionsystem für sich wiederholende töne Download PDF

Info

Publication number
DE69629485T2
DE69629485T2 DE69629485T DE69629485T DE69629485T2 DE 69629485 T2 DE69629485 T2 DE 69629485T2 DE 69629485 T DE69629485 T DE 69629485T DE 69629485 T DE69629485 T DE 69629485T DE 69629485 T2 DE69629485 T2 DE 69629485T2
Authority
DE
Germany
Prior art keywords
comparison
result
predetermined threshold
comparison result
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69629485T
Other languages
English (en)
Other versions
DE69629485D1 (de
Inventor
Alfred Yu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Historic AOL LLC
Original Assignee
America Online Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by America Online Inc filed Critical America Online Inc
Publication of DE69629485D1 publication Critical patent/DE69629485D1/de
Application granted granted Critical
Publication of DE69629485T2 publication Critical patent/DE69629485T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

  • Die Erfindung lehrt ein System zum Komprimieren von quasiperiodischen Tonfolgen (sound), indem diese mit vorher erhaltenen Abschnitten in einem Codebuch verglichen werden.
  • Hintergrund und Zusammenfassung
  • Viele Tonkompressionsschemata ziehen Nutzen aus der wiederholenden Art alltäglicher Töne oder Laute (sound). Beispielsweise wird die Standardcodiervorrichtung für die menschliche Stimme oder "Vocoder" häufig zum Komprimieren und Codieren von menschlichen Stimmtönen verwendet. Ein Vocoder ist eine Klasse von Stimmcodierern/Decodierern, die den menschlichen Vokaltrakt (vocal tract) modellieren.
  • Ein typischer Vocoder modelliert den eingegebenen Ton als zwei Teile: den als V bekannten stimmhaften Ton und den als U bekannten stimmlosen Ton. Der Kanal, durch den diese Signale geführt werden, wird als ein verlustloser Zylinder modelliert. Die ausgegebene Sprache wird basierend auf diesem Modell komprimiert.
  • Genauer gesagt ist Sprache nicht periodisch. Der stimmhafte Teil der Sprache wird jedoch häufig als quasiperiodisch aufgrund seiner Tonhöhenfrequenz (pitch frequency) gekennzeichnet. Die während des stimmlosen Bereichs erzeugten Töne sind stark zufällig. Sprache wird immer als nicht stationär und stochastisch bezeichnet. Bestimmte Teile der Sprache können Redundanz aufweisen und sind möglicherweise mit einem vorherigen Teil der Sprache bis zu einem gewissen Ausmaß korreliert, wobei sie jedoch nicht einfach wiederholt werden.
  • Das Hauptziel des Verwendens eines Vocoders besteht darin, Wege zu finden, die Quelle zu komprimieren, im Gegensatz zum Durchführen einer Komprimierung des Ergebnisses. Die Quelle ist in diesem Fall die durch glottale Impulse gebildete Anregung. Das Ergebnis ist die menschliche Sprache, die wir hören. Es gibt jedoch viele Wege, in denen der menschliche Vokaltrakt die glottalen Impulse modulieren kann, um eine menschliche Stimme zu bilden. Schätzungen der glottalen Impulse werden vorhergesagt und dann codiert. Ein derartiges Modell verringert den dynamischen Bereich der resultierenden Sprache, womit die Sprache komprimierbarer wird.
  • Allgemein gesagt kann die besondere Art der Sprachfilterungen Sprachteile entfernen, die von dem menschlichen Ohr nicht wahrgenommen werden. Wenn das Vocoder-Modell an Ort und Stelle ist, kann ein Restteil der Sprache aufgrund seines niedrigeren dynamischen Bereichs komprimierbar gemacht werden.
  • Der Begriff "Rest" umfasst mehrere Bedeutungen. Er bezieht sich im Allgemeinen auf die Ausgabe des Analysefilters, dem Inversen des Synthesefilters, das den Vokaltrakt modelliert. Bei der vorliegenden Situation nimmt der Rest mehrere Bedeutungen bei unterschiedlichen Stufen an: Bei Stufe 1 – nach dem inversen Filter (Nur-Null-Filter); Stufe 2: nach dem Langzeittonhöhen-Prädiktor oder der sogenannten adaptiven Tonhöhen-VQ, Stufe 3: nach dem Tonhöhen-Codebuch und bei Stufe 4: nach dem Rausch-Codebuch. Der Begriff "Rest", wie er hier verwendet wird, bezieht sich wörtlich auf den verbleibenden Abschnitt des Sprachnebenprodukts, das aus den vorhergehenden Verarbeitungsstufen resultiert.
  • Die vorverarbeitete Sprache wird dann codiert. Ein typischer Vocoder verwendet eine 8-kHz-Abtastrate mit 16 Bits pro Abtastung. Es ist jedoch nichts "Magisches" an diesen Zahlen – sie basieren auf der Bandbreite von Telefonleitungen.
  • Die abgetastete Information wird von einem Sprach-Codec weiter verarbeitet, der ein 8-kHz-Signal ausgibt. Dieses Signal kann nachverarbeitet werden, was das Gegenteil der Eingabeverarbeitung sein kann. Eine weitere zusätzliche Verarbeitung, die ausgestaltet ist, um die Qualität und den Charakter des Signals weiter zu verbessern, kann verwendet werden.
  • Die Rauschunterdrückung modelliert ebenfalls die Art und Weise, mit der Menschen Töne wahrnehmen. Unterschiedliche Gewichtungen werden sowohl im Frequenz- als auch im Zeitbereich zu unterschiedlichen Zeiten gemäß der Stärke der Sprache verwendet. Die Überlagerungs- oder Maskierungseigenschaften des menschlichen Gehörs veranlassen, dass laute Signale bei verschiedenen Frequenzen die Wirkung von Signalen mit niedrigeren Pegeln um diese Frequenzen überlagern bzw. maskieren. Dies trifft ebenfalls beim Zeitbereich zu. Das Ergebnis besteht darin, dass mehr Rauschen während dieses Abschnitts der Zeit und Frequenz toleriert werden kann. Dies ermöglicht uns, mehr Aufmerksamkeit anderswohin zu richten. Dies wird eine "wahrnehmbare Gewichtung" genannt – sie ermöglicht uns, Vektoren auszusuchen, die wahrnehmbar wirksamer sind.
  • Der menschliche Vokaltrakt kann (und wird) von einem Satz verlustloser Zylinder mit veränderlichen Durchmessern modelliert. Typischerweise wird er durch ein Allpolfilter 1/A(Z) der 8-ten bis 12-ten Ordnung modelliert. Sein inverses Gegenstück A(Z) ist ein Nur-Null-Filter mit der gleichen Größenordnung. Die Ausgangssprache wird durch Anregen des Synthesefilters 1/A(Z) mit der Anregung wiedergegeben. Die Anregung oder glottalen Impulse werden durch inverse Filterung des Sprachsignals mit dem inversen Filter A(Z) geschätzt. Ein digitaler Signalprozessor modelliert häufig das Synthesefilter als die Überlagerungs- oder Transferfunktion H(V) = 1/A(Z). Dies bedeutet, dass dieses Modell ein Allpolverfahren ist. Idealerweise ist das Modell komplizierter und umfasst sowohl Pole als auch Nullen.
  • Viel der Komprimierbarkeit der Sprache kommt von ihrer Quasi-Periodizität. Sprache ist aufgrund ihrer Tonhöhenfrequenz (pitch frequency) um den Stimmton (voice sound) quasiperiodisch. Die männliche Sprache weist gewöhnlicherweise einen Pitch zwischen 50 und 100 Hz auf. Die weibliche Sprache weist gewöhnlicherweise einen Pitch über 100 Hz auf.
  • Während vorangehend Kompressionssysteme zur Stimmcodierung beschrieben sind, werden die gleichen allgemeinen Prinzipien verwendet, um andere ähnliche Arten von Tönen zu codieren und zu komprimieren.
  • Verschiedene Techniken sind zum Verbessern des Modells bekannt. Jede dieser Techniken erhöht jedoch die notwendige Bandbreite, um das Signal zu transportieren. Dies erzeugt einen Zeitkonflikt zwischen der Bandbreite des komprimierten Signals und der Qualität des nicht stationären Tons.
  • Diese Probleme werden erfindungsgemäß durch neue Merkmale überwunden.
  • Die WO 93/05502 beschreibt ein Sprachkomprimierungssystem, bei dem nur eine Untermenge von Datenbits zur Übertragung, z. B. die für einen bestimmten codierten Stimmmodus am bedeutendsten Bits, mit der Fehlerkorrekturcodierung geschützt werden. Andere Bits, die für den besonderen Stimmmodus als nicht bedeutsam angesehen werden, sind keiner Fehlersteuercodierung unterworfen.
  • Die Erfindung liefert ein Tonkompressionssystem und ein Verfahren zum Codieren von Tönen gemäß den begleitenden Ansprüchen.
  • Kurzbeschreibung der Zeichnungen
  • Diese und weitere Aspekte der Erfindung werden nun mit Bezug auf die beigefügten Zeichnungen beschrieben, in denen zeigen:
  • 1 ein Blockdiagramm des fundamentalen Vocoders der Erfindung; und
  • 2 die fortgeschrittene Codebuch-Technik der Erfindung.
  • Beschreibung der bevorzugten Ausführungsformen
  • 1 zeigt den fortgeschrittenen Vocoder der Erfindung. Der aktuelle Sprach-Codec verwendet eine besondere Klasse von Vocodern, die basierend auf LPC (linearer prädiktiver Codierung) arbeiten. Alle zukünftigen Abtastungen werden durch eine lineare Kombination von vorhergehenden Abtastungen und der Differenz zwischen vorhergesagten Abtastungen und tatsächlichen Abtastungen vorhergesagt. Wie es oben beschrieben ist, wird dies nach einem verlustlosen Rohr modelliert, das auch als ein Allpolmodell bekannt ist. Das Modell zeigt eine hinreichend kurzfristige Sprachvorhersage.
  • Das obige Diagramm stellt ein derartiges Modell dar, wobei die Eingabe in das verlustlose Rohr als eine Anregung definiert wird, die weiter als eine Kombination von periodischen Impulsen und Zufallsrauschen modelliert wird.
  • Ein Nachteil des obigen Modells besteht darin, dass sich der Vokaltrakt nicht genau wie ein Zylinder verhält und nicht verlustlos ist. Der menschliche Vokaltrakt weist auch Seitendurchgänge, wie beispielsweise die Nase, auf.
  • Zu codierende Sprache 100 wird in einen Analyseblock 102 eingegeben, der den Inhalt der Sprache analysiert, wie es hier beschrieben ist. Der Analyseblock erzeugt einen kurzfristigen Rest zusammen mit weiteren Parametern.
  • Die Analyse bezieht sich in diesem Fall auf die LPC-Analyse, wie es oben in unserem verlustlosen Rohrmodell dargestellt ist, das beispielsweise eine Berechnung des "Windowing", eine Autokorrelation, eine Durbin'sche Rekursion enthält, und die Berechnung prädiktiver Koeffizienten wird durchgeführt. Außerdem wird eine Filterung ankommender Sprache mit dem Analysefilter basierend auf den berechneten prädiktiven Koeffizienten den Rest, nämlich den kurzfristigen Rest STA_res 104, erzeugen.
  • Dieser kurzfristige Rest 104 wird durch das Codierverfahren 110 weiter codiert, um Codes oder Symbole 120 auszugeben, die die komprimierte Sprache angeben. Das Codieren dieser bevorzugten Ausführungsform beinhaltet die Durchführung von drei Codebuch-Suchvorgängen, um das gewichtete Signal des wahrnehmbaren Fehlers zu minimieren. Dieses Verfahren wird auf eine kaskadenartige Art und Weise durchgeführt, so dass die Codebuch-Suchvorgänge nacheinander durchgeführt werden.
  • Die aktuell verwendeten Codebücher sind alle Formverstärkungs-VQ-Codebücher. Das wahrnehmbare gewichtete Filter wird adaptiv mittels der prädiktiven Koeffizienten aus dem aktuellen Sub-Frame erzeugt. Die Filtereingabe ist die Differenz zwischen dem Rest der vorhergehenden Stufe und dem Formverstärkungsvektor der aktuellen Stufe, der ebenfalls Rest genannt wird, der für die nächste Stufe verwendet wird. Die Ausgabe dieses Filters ist das gewichtete Signals des wahrnehmbaren Filters. Dieser Vorgang wird ausführlicher mit Bezug auf 2 gezeigt und erläutert. Ein wahrnehmbarer gewichteter Fehler von jeder Stufe wird als ein Ziel für das Suchen in der nächsten Stufe verwendet.
  • Die komprimierte Sprache oder einer ihrer Abtastwerte 122 wird ebenfalls zu einem Synthesizer 126 zurückgeführt, der rekonstruierten Originalblock 124 neu bildet. Die Synthesestufe decodiert die Linearkombination der Vektoren, um einen Rekonstruktionsrest zu bilden, wobei das Ergebnis verwendet wird, um den Zustand des nächsten Suchvorgangs im nächsten Sub-Frame zu initialisieren.
  • Ein Vergleich des ursprünglichen mit dem rekonstruierten Ton führt zu einem Fehlersignal, das nachfolgende Codebuchsuchvorgänge treiben wird, um derartige wahrnehmbare gewichtete Fehler weiter zu minimieren. Das Ziel des nachfolgenden Codierers besteht darin, diesen Rest sehr wirksam zu codieren.
  • Der erneut gebildete Block 126 gibt an, was an dem Empfangsende empfangen werden würde. Die Differenz zwischen der eingegebenen Sprache 100 und der erneut gebildeten Sprache 126 stellt somit ein Fehlersignal 132 dar.
  • Dieses Fehlersignal wird durch ein Gewichtungsblock 134 nach der Wahrnehmbarkeit gewichtet. Die Wahrnehmungs-Gewichtung gemäß der Erfindung wichtet das Signal unter Verwendung eines Modells dessen, was von dem menschlichen Ohr gehört werden würde. Das wahrnehmbare gewichtete Signal 136 wird dann heuristisch durch einen heuristischen Prozessor 140 verarbeitet, wie es hier beschrieben ist. Heuristische Suchtechniken werden verwendet, die aus der Tatsache Nutzen ziehen, dass einige Codebuchsuchvorgänge unnötig sind und als Ergebnis eliminiert werden können. Die eliminierten Codebücher sind typischerweise Codebücher unten an der Suchkette. Dieses eindeutige Verfahren eines dynamischen und adaptiven Durchführens einer derartigen Eliminierung wird hier beschrieben.
  • Das Auswahlkriterium basiert primär auf der Korrelation zwischen dem Rest von einer vorhergehenden Stufe als Funktion der aktuellen Stufe aufgebaut. Wenn sie sehr gut korreliert sind, bedeutet dies, dass die Formverstärkungs-VQ sehr wenig zu dem Verfahren beiträgt und somit eliminiert werden kann. Wenn sie andererseits nicht sehr gut korrelieren, ist der Beitrag von dem Codebuch bedeutsam, wobei folglich der Index behalten und verwendet werden sollte.
  • Weitere Techniken, wie beispielsweise das Anhalten des Suchvorgangs, wenn eine adaptive vorbestimmte Fehlerschwelle erreicht wurde, und asymptotische Suchvorgänge sind Mittel zum Beschleunigen des Suchverfahrens und zum Abschließen mit einem suboptimalen Ergebnis. Das heuristisch verarbeitete Signal 138 wird als eine Steuerung für das Codierverfahren 110 verwendet, um die Codiertechnik weiter zu verbessern.
  • Diese allgemeine Art der Filterverarbeitung ist in der Technik bekannt, und es ist zu verstehen, dass die Erfindung Verbesserungen an den bekannten Filtersystemen umfasst.
  • Die erfindungsgemäße Codierung verwendet die in 2 gezeigten Codebuchtypen und Architektur. Diese Codierung umfasst drei getrennte Codebücher: das adaptive Vektorquantisierungs-Codebuch (VQ-Codebuch) 200, das Real-Tonhöhen-Codebuch 202 und das Rausch-Codebuch 204. Die neue Information oder Rest 104 wird als ein Rest verwendet, um von dem Codevektor des nachfolgenden Blocks abzuziehen. ZSR (Zero state response) ist eine Reaktion bei Null-Eingabe. Die ZSR ist eine Reaktion, die erzeugt wird, wenn der Codevektor aus nur Nullen besteht. Da das Sprachfilter und weitere zugeordnete Filter IIR-Filter (infinite impulse response filter) sind, wird das System noch immer kontinuierlich eine Ausgabe erzeugen, auch wenn es keine Eingabe gibt. Somit besteht ein vernünftiger erster Schritt für einen Codebuchsuchvorgang darin, zu bestimmen, ob es notwendig ist, etwaige weitere Suchvorgänge durchzuführen, oder ob vielleicht kein Codevektor für. diesen Sub-Frame benötigt wird.
  • Um diesen Punkt klarzustellen, wird jedes vorhergehendes Ereignis einen Resteffekt aufweisen. Obwohl dieser Effekt abnehmen wird, ist dieser Effekt noch weit in die nächsten benachbarten Sub-Frames oder sogar Frames hinein vorhanden. Daher muss das Sprachmodell dies berücksichtigen. Wenn das in dem aktuellen Frame vorhandene Sprachsignal nur ein Resteffekt von einem vorhergehenden Frame ist, dann wird das wahrnehmbare gewichtete Fehlersignal E0 sehr niedrig oder sogar Null sein. Es sei bemerkt, dass aufgrund von Rauschen oder anderer Systemausgaben, Nur-Null-Fehlerbedingungen von nur Nullen fast nie auftreten werden.
  • e0 = STA_res – ϕ. Der Grund, warum der ϕ-Vektor verwendet wird, ist zwecks Vollständigkeit, um die Null-Zustand-Reaktion anzugeben. Dies ist ein eingerichteter Zustand für stattzufindende Suchvorgänge. Wenn Eϕ Null ist oder sich Null nähert, dann sind keine neuen Vektoren notwendig.
  • E0 wird verwendet, um die nächste Stufe als das "Ziel" der Übereinstimmung für die nächste Stufe anzusteuern. Die Aufgabe besteht darin, einen Vektor zu finden, so dass E1 sehr nahe an oder gleich Null ist, wobei E1 der wahrnehmbare gewichtete Fehler von e1 ist, und wobei e1 die Differenz zwischen e0-Vektor(i) ist. Dieses Verfahren geht immer weiter durch die verschiedenen Stufen.
  • Der bevorzugte Modus der Erfindung verwendet ein bevorzugtes System mit 240 Abtastungen pro Frame. Es gibt vier Sub-Frames pro Frame was bedeutet, dass jeder Sub-Frame 60 Abtastungen aufweist.
  • Ein VQ-Suchvorgang wird für jeden Sub-Frame durchgeführt. Dieser VQ-Suchvorgang beinhaltet ein Anpassen des 60-teiligen Vektors mit Vektoren in einem Codebuch mittels eines herkömmlichen Vektoranpassungssystems.
  • Jeder dieser Vektoren muss gemäß einer Gleichung definiert sein. Die verwendete Grundgleichung ist von der Form GaAi + GbBj + GcCk.
  • Da das Ziel darin besteht, ein minimal wahrnehmbares gewichtetes Fehlersignal E3 durch Auswählen von Vektoren Ai, Bj und Ck zusammen mit den entsprechenden Verstärkungen Ga, Gb und Gc zu präsentieren. Dies impliziert NICHT die Vektorsumme von Ga *Ai + GbBj + GcCE = STA_res.
  • Tatsächlich trifft dies mit Ausnahme für Stille fast nie zu.
  • Der Fehlerwert E0 wird vorzugsweise den Werten in dem AVQ-Codebuch 200 angepasst. Dies ist eine herkömmliche Art eines Codebuchs, bei dem Abtastungen vorher rekonstruierter Sprache, z. B. die letzten 20 Millisekunden, gespeichert sind. Eine engste Übereinstimmung wird gefunden. Der Wert e1 (Fehlersignal Nr. 1) stellt das zwischen dem Anpassen von E0 mit AVQ 200 übriggebliebenen Rest dar.
  • Gemäß der Erfindung speichert der adaptive Vektorquantisierer eine 20-ms-Historie der rekonstruierten Sprache. Diese Historie wird hauptsächlich für die Pitch- oder Tonhöhenvorhersage während eines Stimm-Frames verwendet. Die Tonhöhe (Pitch) eines Tonsignals ändert sich nicht schnell. Das neue Signal wird näher zu denjenigen Werten bei der AVQ sein, als sie zu anderen Dingen sein werden. Daher wird normalerweise eine enge Übereinstimmung erwartet.
  • Änderungen in der Stimme oder neue Benutzer, die in einen Dialog eintreten, werden die Qualität der Übereinstimmung verschlechtern. Erfindungsgemäß wird diese verschlechterte Übereinstimmung mittels anderer Codebücher ausgeglichen.
  • Das erfindungsgemäß verwendete zweite Codebuch ist ein Real-Tonhöhen-Codebuch 202. Dieses Real-Tonhöhen-Codebuch umfasst Codeeinträge für die gewöhnlichsten Tonhöhen. Diese neuen Tonhöhen stellen die wahrscheinlichsten Tonhöhen der menschlichen Sprachen, vorzugsweise von 200 Hz und darunter, dar. Der Zweck dieses zweiten Codebuchs besteht darin, sich einem neuen Sprecher anzupassen, und für Anfahr/Stimm-Reaktionszwecke. Das Tonhöhencodebuch ist für eine schnelle Reaktion bestimmt, wenn die Stimme beginnt oder wenn eine neue Person mit neuer Tonhöheninformation in den Raum eintritt, die nicht in dem adaptiven Codebuch oder dem sogenannten Historie-Codebuch gefunden wird. Ein derartiges schnelles Reaktionsverfahren ermöglicht, dass die Form der Sprache schneller konvergiert und ermöglicht engere Übereinstimmungen mit der des ursprünglichen Signalverlaufs während der stimmhaften Bereichs.
  • Wenn ein neuer Sprecher in das Tonfeld eintritt, wird die AVQ gewöhnlicherweise beansprucht, um die Anpassung durchzuführen. Somit ist E1 immer noch sehr hoch. Während dieser Anfangszeit gibt es daher sehr große Reste, da die Übereinstimmung in dem Codebuch sehr schlecht ist. Der Rest E1 stellt den gewichteten Fehler der Tonhöhe des neuen Sprechers dar. Dieser Rest wird der Tonhöhe in dem Real-Tonhöhen-Codebuch 202 angepasst.
  • Das herkömmliche Verfahren verwendet eine Art eines zufälligen Impulscodebuchs, das über das adaptive Verfahren bei 200 langsam geformt wird, um mit dem der ursprünglichen Sprache übereinzustimmen. Dieses Verfahren braucht zu lange, um zu konvergieren. Typischerweise wird es ungefähr 6 Sub-Frames benötigen und eine Hauptverzerrung um den stimmhaften Reaktionsbereich verursachen und somit einen Qualitätsverlust erleiden.
  • Die Erfinder haben herausgefunden, dass diese Anpassung an das Tonhöhen-Codebuch 202 eine fast sofortige erneute Verriegelung des Signals verursacht. Beispielsweise kann das Signal in einer einzigen Periode erneut verriegelt werden, wobei eine Sub-Frame-Periode = 60 Abtastungen = 60/8000 = 7,5 ms ist. Dies ermöglicht eine genaue Darstellung der neuen Stimme während der Übergangsperiode in dem frühen Teil der Zeit, während der neue Sprecher spricht.
  • Das Rausch-Codebuch 204 wird verwendet, um den Schlupf (Slack) aufzunehmen und hilft ebenfalls, Sprache während der stimmlosen Periode zu formen.
  • Wie es oben beschrieben ist, stellen die G's Amplitudeneinstellcharakteristika dar, und A, B und C sind Vektoren.
  • Das Codebuch für die AVQ umfasst vorzugsweise 256 Einträge. Die Codebücher für die Tonhöhe und das Rauschen umfassen jeweils 512 Einträge.
  • Das System der Erfindung verwendet drei Codebücher. Es sollte jedoch ersichtlich sein, dass entweder das Real-Tonhöhen-Codebuch oder das Rausch-Codebuch ohne das andere verwendet werden könnten.
  • Eine zusätzliche Verarbeitung wird erfindungsgemäß gemäß der als Heuristik bezeichneten Charakteristik durchgeführt. Wie es oben beschrieben ist, verbessert das dreiteilige Codebuch der Erfindung den Wirkungsgrad der Anpassung. Dies wird natürlich nur auf Kosten von mehr übertragene Information und somit einem verringerten Kompressionswirkungsgrad durchgeführt. Außerdem ermöglicht die vorteilhafte Architektur der Erfindung eine Betrachtung und Verarbeitung jedes Fehlerwerts e0–e3 und E0–E3. Diese Fehlerwerte erzählen uns verschiedene Dinge über die Signale, einschließlich über das Ausmaß der Übereinstimmung. Beispielsweise erzählt uns der Fehlerwert E0 gleich 0, dass keine zusätzliche Verarbeitung notwendig ist. Ähnliche Information kann aus den Fehlern E0–E3 erhalten werden. Erfindungsgemäß bestimmt das System das Ausmaß der Fehlübereinstimmung mit dem Codebuch, um eine Angabe zu erhalten, ob die Codebücher der Real-Tonhöhen- und Rausch-Codebücher notwendig sind. Die Real-Tonhöhen- und Rausch-Codebücher werden nicht immer verwendet. Diese Codebücher werden nur verwendet, wenn eine neue Art oder Charakter von Ton in das Feld eintritt.
  • Die Codebücher werden adaptiv basierend auf einer mit der Ausgabe des Codebuchs durchgeführten Berechnung ein- und ausgeschaltet.
  • Die bevorzugte Technik vergleicht E0 mit E1. Da diese Werte Vektoren sind, erfordert der Vergleich eine Korrelierung der beiden Vektoren. Eine Korrelierung der beiden Vektoren ermittelt das Ausmaß der Nähe zwischen ihnen. Das Ergebnis der Korrelation ist ein skalarer Wert, der angibt, wie gut die Übereinstimmung ist. Wenn der Korrelationswert niedrig ist, gibt er an, dass diese Vektoren sehr unterschiedlich sind. Dies impliziert, dass der Beitrag von diesem Codebuch bedeutsam ist, womit keine zusätzlichen Codebuchsuchschritte notwendig sind. Im Gegensatz dazu wird, wenn der Korrelationswert hoch ist, der Beitrag von diesem Codebuch nicht benötigt, und es sind weitere Verarbeitungen erforderlich. Demgemäß vergleicht dieser Aspekt der Erfindung die beiden Fehlerwerte, um zu bestimmen, ob eine zusätzliche Codebuchkompensation notwendig ist. Falls nicht, wird die zusätzliche Codebuchkompensation abgeschaltet, um die Kompression zu erhöhen.
  • Ein ähnlicher Vorgang kann zwischen E1 und E2 durchgeführt werden, um zu bestimmen, ob das Rausch-Codebuch notwendig ist.
  • Außerdem werden Fachleute verstehen, dass dies anderweitig mittels der allgemeinen Technik modifiziert werden kann, sodass eine Bestimmung, ob die Codierung ausreichend ist, erhalten wird, und dass die Codebücher adaptiv ein- und ausgeschaltet werden, um die Kompressionsrate und/oder die Übereinstimmung weiter zu verbessern.
  • Zusätzliche Heuristik wird ebenfalls erfindungsgemäß verwendet, um den Suchvorgang zu beschleunigen. Zusätzliche Heuristik, um die Codebuchsuchvorgänge zu beschleunigen, sind:
    • a) Eine Untermenge von Codebüchern wird durchsucht und ein wahrnehmbarer gewichteter Teilfehler Ex wird bestimmt. Wenn Ex innerhalb einer bestimmten vorbestimmten Schwelle liegt, wird die Anpassung angehalten und entschieden, dass sie gut genug ist. Andernfalls wird bis zum Ende weiter gesucht. Eine Teilauswahl kann zufällig oder durch dezimierte Sätze durchgeführt werden.
    • b) Ein asymptotischer Weg zum Berechnen des wahrnehmbaren gewichteten Fehlers wird verwendet, wodurch die Berechnung vereinfacht wird.
    • c) Die wahrnehmbaren gewichteten Fehlerkriterien werden vollständig übersprungen und statt dessen "e" minimiert. In einem derartigen Fall ist ein Early-out-Algorithmus verfügbar, um die Berechnung weiter zu beschleunigen.
  • Eine weitere Heuristik ist die stimmhafte oder stimmlose Erfassung und ihre geeignete Verarbeitung. Das Stimmhafte/Stimmlose kann während der Vorverarbeitung bestimmt werden. Die Erfassung wird beispielsweise basierend auf Nulldurchgängen und Energiebestimmungen durchgeführt. Die Verarbeitung dieser Töne wird unterschiedlich abhängig davon durchgeführt, ob der Eingangston stimmhaft oder stimmlos ist.
  • Beispielsweise können Codebücher abhängig davon umgeschaltet werden, welches Codebuch wirksam ist.
  • Unterschiedliche Codebücher können für unterschiedliche Zwecke einschließlich jedoch nicht begrenzt auf die bekannte Technik einer Formverstärkungs-Vektorquantisierung und verbundener Optimierung verwendet werden. Ein Anstieg in der Gesamtkompressionsrate ist basierend auf der Vorverarbeitung und dem Ein- und Ausschalten der Codebücher erreichbar.
  • Obwohl nur einige Ausführungsformen obenstehend ausführlich beschrieben wurden, werden Fachleute gewiss verstehen, dass viele Modifikationen bei der bevorzugten Ausführungsform innerhalb des Schutzumfangs, wie er durch die beigefügten Ansprüche beansprucht wird, möglich sind.

Claims (27)

  1. Verfahren zum Komprimieren von Tönen mit folgenden Schritten: Kennzeichnen einer ersten Tondarstellung (E0), um ein erstes Kennzeichnungsergebnis (201) zu erzeugen, das zumindest einen ersten Verarbeitungselementrest (residual) (200) aufweist; Erzeugen eines ersten Vergleichsergebnisses (e1), indem zumindest eine mit der ersten Tondarstellung (E0) in Beziehung stehende erste Vergleichseingabe (e0) mit einer mit dem ersten Kennzeichnungsergebnis (201) in Beziehung stehenden zweiten Vergleichseingabe (201) korreliert wird; Vergleichen des ersten Vergleichsergebnisses (e1) mit einem ersten vorbestimmten Schwellenkriterium; Bestimmen, ob eine weitere Verarbeitung wünschenswert ist basierend darauf, ob das erste Vergleichsergebnis (e1) das erste vorbestimmte Schwellenkriterium erfüllt; und Erzeugen einer komprimierten Tonausgabe (120, 122) basierend auf dem ersten Vergleichsergebnis (e1), falls das erste Vergleichsergebnis (e1) das erste vorbestimmte Schwellenkriterium nicht erfüllt.
  2. Verfahren gemäß Anspruch 1, ferner mit einem Schritt eines Kennzeichnens einer zweiten Tondarstellung (E1), um ein zweites Kennzeichnungsergebnis (203) nur zu erzeugen, falls das erste Vergleichsergebnis (e1) das erste vorbestimmte Schwellenkriterium erfüllt.
  3. Verfahren gemäß Anspruch 2, bei dem die komprimierte Tonausgabe (120, 122) das zweite Kennzeichnungsergebnis (203) einschließt und das erste Kennzeichnungsergebnis (201) ausschließt, falls das erste Vergleichsergebnis das erste vorbestimmte Schwellenkriterium erfüllt.
  4. Verfahren gemäß Anspruch 2, ferner mit einem Schritt eines Kennzeichnens einer dritten Tondarstellung (E2), um ein drittes Kennzeichnungsergebnis (205) nur zu erzeugen, falls das zweite Vergleichsergebnis (e2) das zweite vorbestimmte Schwellenkriterium erfüllt.
  5. Verfahren gemäß Anspruch 4, bei dem die komprimierte Tonausgabe (120, 122) das dritte Kennzeichnungsergebnis (205) einschließt und das erste Kennzeichnungsergebnis (201) und das zweite Kennzeichnungsergebnis (203) ausschließt, falls das zweite Vergleichsergebnis (e2) das zweite vorbestimmte Schwellenkriterium erfüllt.
  6. Tonkompressionsvorrichtung zum Erzeugen einer komprimierten Tonausgabe mit: einem ersten Verarbeitungselement (200), das aufgebaut und angeordnet ist, um eine erste Tondarstellung (E0) zu kennzeichnen und ein erstes Kennzeichnungsergebnis (201) zu erzeugen; einem ersten Vergleichselement (211), das aufgebaut und angeordnet ist, um ein erstes Vergleichsergebnis (e1) zu erzeugen, indem zumindest eine mit der ersten Tondarstellung (E0) in Beziehung stehende erste Vergleichseingabe (e0) mit einer mit dem ersten Kennzeichnungsergebnis (201) in Beziehung stehenden zweiten Vergleichsangabe verglichen wird, und um zu bestimmen, ob eine weitere Verarbeitung wünschenswert ist basierend darauf, ob das erste Vergleichsergebnis (e1) ein erstes vorbestimmtes Schwellenkriterium erfüllt; und einem Ausgangselement (110), das aufgebaut und angeordnet ist, um eine komprimierte Tonausgabe (120, 122) basierend auf zumindest dem ersten Vergleichsergebnis (e1) zu erzeugen, falls das erste Vergleichsergebnis (e1) das erste vorbestimmte Schwellenkriterium nicht erfüllt.
  7. Vorrichtung gemäß Anspruch 6, ferner mit einem zweiten Verarbeitungselement (202), das aufgebaut und angeordnet ist, um eine zweite Tondarstellung (E1) zu kennzeichnen und ein zweites Kennzeichnungsergebnis (203) nur zu erzeugen, wenn das erste Vergleichsergebnis (e1) das erste vorbestimmte Schwellenkriterium erfüllte.
  8. Vorrichtung gemäß Anspruch 7, bei dem die komprimierte Tonausgabe (120, 122) das zweite Kennzeichnungsergebnis (203) einschließt und das erste Kennzeichnungsergebnis (201) ausschließt, wenn das erste Vergleichsergebnis (e1) die erste vorbestimmte Schwelle erfüllt.
  9. Vorrichtung gemäß Anspruch 7, bei der das erste Verarbeitungselement ein erstes Codebuch (200) umfaßt, das erste Codes zum Kennzeichnen der ersten Tondarstellung (E0) aufweist, und das zweite Verarbeitungselement ein zweites Codebuch (202) umfaßt, das zweite Codes zum Kennzeichnen der zweiten Tondarstellung (E1) aufweist.
  10. Vorrichtung gemäß Anspruch 9, bei der das zweite Codebuch (202) zumindest einen Code aufweist, der sich von den Codes des ersten Codebuchs (200) unterscheidet.
  11. Vorrichtung gemäß Anspruch 9, bei der die ersten und zweiten Kennzeichnungsergebnisse (201, 203) jeweils eine Anzeige eines am nächsten übereinstimmenden Codes und eines Rests (residual) umfassen.
  12. Vorrichtung gemäß Anspruch 7, wobei die erste Tondarstellung (E0) und die zweite Tondarstellung (E1) wahrnehmbar (perceptually) gewichtete Fehlerwerte umfassen.
  13. Vorrichtung gemäß Anspruch 12, bei der die erste Vergleichseingabe (e0) und die zweite Vergleichseingabe (201), die zum Vergleich von dem ersten Vergleichselement (211) verwendet werden, wahrnehmbar gewichtete Fehlerwerte umfassen.
  14. Vorrichtung gemäß Anspruch 12, bei der die erste Vergleichseingabe (e0) und die zweite Vergleichseingabe (201), die zum Vergleich von dem ersten Vergleichselement verwendet werden, nicht wahrnehmbar gewichtete Fehlerwerte umfassen.
  15. Vorrichtung gemäß Anspruch 6, bei der das erste Vergleichselement (211) eine Korrelationsfunktion an der ersten Vergleichseingabe (e0) und der zweiten Vergleichseingabe (201) durchführt, und das erste Vergleichsergebnis (e1) ein metrischer Korrelationswert ist.
  16. Vorrichtung gemäß Anspruch 7, ferner mit einem zweiten Vergleichselement (212), das ausgestaltet und angeordnet ist, um ein zweites Vergleichsergebnis (e2) zu erzeugen, indem zumindest eine mit der zweiten Tondarstellung (E1) in Beziehung stehende dritte Vergleichseingabe (e1) mit einer mit dem zweiten Kennzeichnungsergebnis in Beziehung stehenden vierten Vergleichseingabe (203) verglichen wird, und um zu bestimmen, ob eine weitere Verarbeitung wünschenswert ist basierend darauf, ob das zweite Vergleichsergebnis (e2) ein zweites vorbestimmtes Schwellenkriterium erfüllt.
  17. Vorrichtung gemäß Anspruch 16, ferner mit einem dritten Verarbeitungselement (204), das ausgestaltet und angeordnet ist, um eine dritte Tondarstellung (E2) zu kennzeichnen und ein drittes Kennzeichnungsergebnis (205) nur zu erzeugen, falls das zweite Vergleichsergebnis (e2) das zweite vorbestimmte Schwellenkriterium erfüllt.
  18. Vorrichtung gemäß Anspruch 17, bei der die komprimierte Tonausgabe (120, 122) das dritte Kennzeichnungsergebnis (205) einschließen und das erste Kennzeichnungsergebnis (201) und das zweite Kennzeichnungsergebnis (203) ausschließen kann, falls das zweite Vergleichsergebnis (e2) die zweite vorbestimmte Schwelle erfüllt.
  19. Vorrichtung gemäß Anspruch 17, bei der: das erste Verarbeitungselement ein adaptives Vektorquantisierungs-Codebuch (200) umfaßt; das zweite Verarbeitungselement ein Real-Tonhöhen-Vektorquantisierungs-Codebuch (202) umfaßt, das eine Mehrzahl von Tonhöhen aufweist, die Stimmen angeben; und das dritte Verarbeitungselement ein Rausch-Vektorquantisierungs-Codebuch (204) umfaßt, das eine Mehrzahl von Rausch-Vektoren aufweist.
  20. Vorrichtung gemäß Anspruch 6, bei der die erste Tondarstellung (E0) die Differenz zwischen einem ersten empfangenen Wert (210), der einen vorherigen Ton angibt, und einem zweiten empfangenen Wert (104), der einen neuen Ton angibt, umfaßt.
  21. Vorrichtung gemäß Anspruch 16, bei der das zweite Vergleichselement (212) die dritte Vergleichseingabe und die vierte Vergleichseingabe (203) nur vergleicht, falls das erste Vergleichsergebnis (e1) die erste vorbestimmte Schwelle erfüllt.
  22. Vorrichtung gemäß Anspruch 17, bei der die erste Tondarstellung (E0), die durch das erste Verarbeitungselement (200) gekennzeichnet ist, eine wahrnehmbar gewichtete Differenz (e0) zwischen einem ersten empfangenen Wert (210), der einen vorherigen Ton angibt, und einem zweiten empfangenen Wert (104), der einen neuen Ton angibt, umfaßt.
  23. Vorrichtung gemäß Anspruch 22, bei der die zweite Tondarstellung (E1), die durch das zweite Verarbeitungselement (202) gekennzeichnet ist, einen wahrnehmbar gewichteten Rest (e1) des ersten Verarbeitungselements (200) umfaßt; und bei der die dritte Tondarstellung (E2), die durch das dritte Verarbeitungselement (204) gekennzeichnet ist, einen wahrnehmbar gewichteten Rest (e2) des zweiten Verarbeitungselements (202) umfaßt.
  24. Vorrichtung gemäß Anspruch 7, bei der die zweite Vergleichseingabe (201) mit der zweiten Tondarstellung (E1) in Beziehung steht, und die komprimierte Tonausgabe mit dem ersten Kennzeichnungsergebnis (201) und dem zweiten Kennzeichnungsergebnis (203) nur in Beziehung steht, falls das erste Vergleichsergebnis das erste vorbestimmte Schwellenkriterium erfüllt.
  25. Vorrichtung gemäß Anspruch 24 ferner mit: einem dritten Verarbeitungselement (204), das ausgestaltet und angeordnet ist, um eine dritte Tondarstellung (E2) zu kennzeichnen und ein drittes Kennzeichnungsergebnis (205) zu erzeugen; einem zweiten Vergleichselement, das ausgestaltet und angeordnet ist, um ein zweites Vergleichsergebnis zu erzeugen, indem zumindest die mit der zweiten Tondarstellung (E1) in Beziehung stehende zweite Vergleichseingabe mit einer mit der dritten Tondarstellung (E2) in Beziehung stehenden dritten Vergleichseingabe verglichen wird, und um den Inhalt der komprimierten Tonausgabe (120, 122) basierend darauf zu bestimmen, ob das zweite Vergleichsergebnis ein zweites vorbestimmtes Schwellenkriterium erfüllt; wobei das Ausgangselement (110) ausgestaltet und aufgebaut ist, um die komprimierte Tonausgabe (120, 122) basierend auf zumindest dem ersten Vergleichsergebnis und dem zweiten Vergleichsergebnis zu erzeugen, und die komprimierte Tonausgabe basierend auf dem ersten Kennzeichnungsergebnis (201), dem zweiten Kennzeichnungsergebnis (203) und dem dritten Kennzeichnungsergebnis (205) nur erzeugt wird, falls das zweite Vergleichsergebnis das zweite vorbestimmte Schwellenkriterium erfüllt.
  26. Vorrichtung gemäß Anspruch 7, bei der das zweite Verarbeitungselement (202) ausgestaltet ist, um die zweite Tondarstellung (E1) zu kennzeichnen und das zweite Kennzeichnungsergebnis (203) nur zu erzeugen, nachdem das erste Vergleichsergebnis (e1) das erste vorbestimmte Schwellenkriterium erfüllt.
  27. Vorrichtung gemäß Anspruch 26 ferner mit: einem dritten Verarbeitungselement (204), das ausgestaltet und angeordnet ist, um eine dritte Tondarstellung (E2) zu kennzeichnen und ein drittes Kennzeichnungsergebnis (205) zu erzeugen; und einem zweiten Vergleichselement (212), das ausgestaltet und angeordnet ist, um ein zweites Vergleichsergebnis (e2) zu erzeugen, indem zumindest eine mit der zweiten Tondarstellung (e1) in Beziehung stehende dritte Vergleichseingabe (e1) und eine mit dem zweiten Kennzeichnungsergebnis in Beziehung stehende vierte Vergleichseingabe (203) verglichen wird, und um zu bestimmen, ob eine weitere Verarbeitung wünschenswert ist basierend darauf, ob das zweite Vergleichsergebnis (e2) ein zweites vorbestimmtes Schwellenkriterium erfüllt; wobei das Ausgangselement (110) ausgestaltet und angeordnet ist, um die komprimierte Tonausgabe (120, 122) basierend auf zumindest dem ersten Vergleichsergebnis (e1) und dem zweiten Vergleichsergebnis (e2) zu erzeugen.
DE69629485T 1995-10-20 1996-10-21 Kompressionsystem für sich wiederholende töne Expired - Lifetime DE69629485T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US545487 1990-06-29
US54548795A 1995-10-20 1995-10-20
PCT/US1996/016693 WO1997015046A1 (en) 1995-10-20 1996-10-21 Repetitive sound compression system

Publications (2)

Publication Number Publication Date
DE69629485D1 DE69629485D1 (de) 2003-09-18
DE69629485T2 true DE69629485T2 (de) 2004-06-09

Family

ID=24176446

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69629485T Expired - Lifetime DE69629485T2 (de) 1995-10-20 1996-10-21 Kompressionsystem für sich wiederholende töne

Country Status (7)

Country Link
US (2) US6243674B1 (de)
EP (1) EP0856185B1 (de)
JP (1) JPH11513813A (de)
AU (1) AU727706B2 (de)
BR (1) BR9611050A (de)
DE (1) DE69629485T2 (de)
WO (1) WO1997015046A1 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6704703B2 (en) * 2000-02-04 2004-03-09 Scansoft, Inc. Recursively excited linear prediction speech coder
DE60039077D1 (de) * 2000-08-25 2008-07-10 St Microelectronics Asia Verfahren zur effizienten filterung ohne latenz in einem system mit langer impulsantwort
US6789059B2 (en) * 2001-06-06 2004-09-07 Qualcomm Incorporated Reducing memory requirements of a codebook vector search
US7110942B2 (en) * 2001-08-14 2006-09-19 Broadcom Corporation Efficient excitation quantization in a noise feedback coding system using correlation techniques
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods
US7206740B2 (en) * 2002-01-04 2007-04-17 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
US20030229491A1 (en) * 2002-06-06 2003-12-11 International Business Machines Corporation Single sound fragment processing
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US7752039B2 (en) * 2004-11-03 2010-07-06 Nokia Corporation Method and device for low bit rate speech coding
US7571094B2 (en) * 2005-09-21 2009-08-04 Texas Instruments Incorporated Circuits, processes, devices and systems for codebook search reduction in speech coders
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
US9698887B2 (en) * 2013-03-08 2017-07-04 Qualcomm Incorporated Systems and methods for enhanced MIMO operation
EP2980790A1 (de) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Komfortgeräuscherzeugungs-Modusauswahl

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US5125030A (en) * 1987-04-13 1992-06-23 Kokusai Denshin Denwa Co., Ltd. Speech signal coding/decoding system based on the type of speech signal
JPH0451200A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
EP0500961B1 (de) * 1990-09-14 1998-04-29 Fujitsu Limited Sprachkodierungsystem
CA2051304C (en) * 1990-09-18 1996-03-05 Tomohiko Taniguchi Speech coding and decoding system
US5206884A (en) * 1990-10-25 1993-04-27 Comsat Transform domain quantization technique for adaptive predictive coding
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US5265190A (en) * 1991-05-31 1993-11-23 Motorola, Inc. CELP vocoder with efficient adaptive codebook search
DE9218980U1 (de) * 1991-09-05 1996-08-22 Motorola Inc., Schaumburg, Ill. Fehlerschutz für Mehrmoden-Sprachcoder
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JPH05232994A (ja) * 1992-02-25 1993-09-10 Oki Electric Ind Co Ltd 統計コードブック
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5513297A (en) * 1992-07-10 1996-04-30 At&T Corp. Selective application of speech coding techniques to input signal segments
US5717824A (en) * 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
DE69334349D1 (de) * 1992-09-01 2011-04-21 Apple Inc Verbesserte Vektorquatisierung
CA2105269C (en) * 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
JP3273455B2 (ja) * 1994-10-07 2002-04-08 日本電信電話株式会社 ベクトル量子化方法及びその復号化器
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
US5819215A (en) * 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
TW321810B (de) * 1995-10-26 1997-12-01 Sony Co Ltd
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US5857167A (en) * 1997-07-10 1999-01-05 Coherant Communications Systems Corp. Combined speech coder and echo canceler
US6044339A (en) * 1997-12-02 2000-03-28 Dspc Israel Ltd. Reduced real-time processing in stochastic celp encoding

Also Published As

Publication number Publication date
AU727706B2 (en) 2000-12-21
AU7453696A (en) 1997-05-07
DE69629485D1 (de) 2003-09-18
EP0856185A1 (de) 1998-08-05
WO1997015046A1 (en) 1997-04-24
BR9611050A (pt) 1999-07-06
EP0856185B1 (de) 2003-08-13
EP0856185A4 (de) 1999-10-13
US6424941B1 (en) 2002-07-23
JPH11513813A (ja) 1999-11-24
US6243674B1 (en) 2001-06-05

Similar Documents

Publication Publication Date Title
DE60201766T2 (de) Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung
DE69814517T2 (de) Sprachkodierung
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE19604273C5 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69837822T2 (de) Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen
DE60011051T2 (de) Celp-transkodierung
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE19647298C2 (de) Kodiersystem
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne
DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE60225381T2 (de) Verfahren zur Kodierung von Sprach- und Musiksignalen
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE60024123T2 (de) Lpc-harmonischer sprachkodierer mit überrahmenformat
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60308567T2 (de) Dekodierungsgerät, Kodierungsgerät, Dekodierungsverfahren und Kodierungsverfahren
EP1869671B1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
DE69636209T2 (de) Vorrichtung zur Sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition