DE69836785T2 - Audiosignalkompression, Sprachsignalkompression und Spracherkennung - Google Patents

Audiosignalkompression, Sprachsignalkompression und Spracherkennung Download PDF

Info

Publication number
DE69836785T2
DE69836785T2 DE69836785T DE69836785T DE69836785T2 DE 69836785 T2 DE69836785 T2 DE 69836785T2 DE 69836785 T DE69836785 T DE 69836785T DE 69836785 T DE69836785 T DE 69836785T DE 69836785 T2 DE69836785 T2 DE 69836785T2
Authority
DE
Germany
Prior art keywords
mel
speech
coefficients
signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69836785T
Other languages
English (en)
Other versions
DE69836785D1 (de
Inventor
Yoshihisa Oosakafu Katano-shi Nakatoh
Takeshi Kobe-shi NORIMATSU
Mineo Oosakafu Katano-shi Tsushima
Tomokazu Oosakafu Toyokanashi Ishikawa
Mitsuhiko Hyogoken Nishinomiya-shi Serikawa
Taro Oosakafu Toyonaka-shi Katayama
Junichi Naraken Nakahashi
Yoriko Kyotofu Nagaokakyo-shi Yagi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69836785D1 publication Critical patent/DE69836785D1/de
Application granted granted Critical
Publication of DE69836785T2 publication Critical patent/DE69836785T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung für die Erkennung von Sprache, die in der Lage sind, eine höhere Erkennungsrate als herkömmliche Verfahren und Vorrichtungen insbesondere dann bereitzustellen, wenn die Erkennung mit Hilfe von Parametern ausgeführt wird, die unterschiedliche Auflösungen für unterschiedliche Frequenzen haben, wobei die Parameter durch eine lineare Vorhersage-Codieranalyse gewonnen werden, bei der Eigenschaften des menschlichen Gehörs zur Verwendung gelangen.
  • Es wurde eine Vielfalt von Audiosignal-Kompressionsverfahren vorgeschlagen, wobei im folgenden ein Beispiel dieser Verfahren erläutert wird.
  • Zu Beginn wird eine Zeitreihe eines Eingangsaudiosignals in eine Frequenzcharakteristik-Signalfolge für jede Länge einer spezifischen Periode (Frame) durch die MDCT (Modifizierte Diskrete Kosinustransformation), die FFT (Schnelle Fourier-Transformation) oder dergleichen transformiert. Zudem wird das Eingangsaudiosignal Frame für Frame einer linearen Vorhersageanalyse (LPC-Analyse) unterzogen, um LPC-Koeffizienten (lineare Vorhersagekoeffizienten), LSP-Koeffizienten (Linienspektren-Paarkoeffizienten), PARCOR-Koeffizienten (Partielle Autokorrelationskoeffizienten) oder dergleichen zu extrahieren, wobei man eine spektrale LPC-Hülle aus diesen Koeffizienten erhält. Als nächstes wird die Frequenzcharakteristik durch Dividieren der berechneten Frequenzcharakteristik-Signalfolge durch die spektrale LPC-Hülle und Normalisieren derselben geglättet, worauf die Leistung mit Hilfe des Maximalwertes oder des Mittelwertes der Leistung normalisiert wird.
  • In Verlauf der Beschreibung werden Ausgabekoeffizienten bei der Leistungsnormalisierung als "Restsignale" bezeichnet.
  • Weiterhin wird an den geglätteten Restsignalen eine Vektorquantisierung unter Verwendung der spektralen Hülle als Gewichtung ausgeführt.
  • Als Beispiel eines derartigen Audiosignal-Kompressionsverfahrens gibt es TwinVQ (Iwagami, Moriya, Miki: "Audio Coding by Frequency-Weighted Interleave Vector Quantization (TwinVQ" Anthology of Lectured Papers of Acoustic Society, 1-P-1, pp. 3390-340, 1994).
  • Nun wird ein Sprachsignal-Kompressionsverfahren gemäß einem Stand der Technik beschrieben.
  • Zu Beginn wird eine Zeitreihe eines Eingangssprachsignals für jeden Frame einer LPC-Analyse unterzogen, wodurch es in Komponenten der Spektral-LPC-Hülle, wie etwa in LPC-Koeffizienten, LSP-Koeffizienten oder PARCOR-Koeffizienten, und Restsignale unterteilt wird, deren Frequenzcharakteristik geglättet wird. Die Komponenten der Spektral-LPC-Hülle werden einer Skalar-Quantisierung unterzogen und die geglätteten Restsignale gemäß eines zuvor eingerichteten Klangquellen-Codebuches quantisiert, wodurch die Komponenten bzw. die Signale in Digitalsignale umgewandelt werden.
  • Als Beispiel eines derartigen Sprachsignal-Kompressionsverfahrens gibt es CELP (M.R. Schroeder and B.S. Atal, "Code-excited Linear Prediction (CELP) High Quality Speech at Very Low Rates", Proc. ICASSP-85, März 1985).
  • Ein Sprachcodieralgorithmus auf der Basis der adaptiven Mel-Cepstral-Analyse ist im Aufsatz K. Tokuda, T. Kobayashi, S. Imai, and T. Fukada, "Speech Coding Based Adaptive Met-Cepstral Analysis and Ist Evaluation", Electronics and Communications in Japan, Part 3, Vol. 78 pp. 50-60 (1995) beschrieben. Bei diesem Verfahren kommen Koeffizienten einer Exponential-Transferfunktion zur Codierung durch mehrstufige Quantisierung zur Anwendung. Diese Koeffizienten werden mit einer adaptiven Mel-Cepstral-Analyse geschätzt.
  • Weiterhin wird ein Spracherkennungsverfahren gemäß einem Stand der Technik erläutert.
  • Im Allgemeinen wird in einer Spracherkennungsvorrichtung die Spracherkennung wie folgt ausgeführt. Ein Standardmodell für jedes Phonem oder Wort wird im voraus unter Verwendung einer Sprachdatenbank als Grundlage ausgebildet und ein Parameter entsprechend einer spektralen Hülle aus einer eingegebenen Sprache gewonnen. Anschließend wird die Ähnlichkeit zwischen der Zeitreihe der eingegebenen Sprache und dem Standardmodell berechnet und ein Phonem oder Wort entsprechend dem Standradmodell, das die größte Ähnlichkeit hat, ermittelt. In diesem Fall wird das Hidden Markov Modell (HMM) oder an sich die Zeitreihe eines repräsentativen Parameters als Standardmodell benutzt (Seiichi Nakagawa "Speech Recognition by Probability Model", Edited by Electronics Information and Communication Society, pp. 18-20).
  • Normalerweise wird die Erkennung unter Verwendung der folgenden Cepstrum-Koeffizienten als eine Zeitreihe eines Parameters, den man aus der eingegebenen Sprache erhält, ausgeführt: LPC-Cepstrum-Koeffizienten, die man erhält, indem eine Zeitreihe einer eingegebenen Sprache in LPC-Koeffizienten für jede Länge einer speziellen Periode (Frame) durch LPC-Analyse transformiert wird und die resultierenden LPC-Koeffizienten anschließend einer Cepstrum-Transformation unterzogen werden ("Digital Signal Processing of Speech and Audio Information", by Kiyohiro Sikano, Satosi Nakamura, Siro Ise, Shyokodo, pp. 10-16), oder Cepstrum-Koeffizienten, die man erhält, indem eine eingegebene Sprache in Leistungsspektren für jede Länge einer speziellen Periode (Frame) durch eine DFT- oder Bandpass-Filterbank umgewandelt wird und anschließend die resultierenden Leistungsspektren einer Cepstrum-Transformation unterzogen werden.
  • Beim Audiosignal-Kompressionsverfahren des Standes der Technik erhält man Restsignale durch Dividieren einer Frequenzcharakteristik-Signalfolge, die durch die MDCT oder die FFT berechnet wird, durch eine Spektral-LPC-Hülle und Normalisieren des Ergebnisses.
  • Andererseits wird beim Sprachsignal-Kompressionsverfahren des Standes der Technik ein Eingangsaudiosignal in eine Spektral-LPC-Hülle, die durch die LPC-Analyse berechnet wird, und Restsignale getrennt. Das Audiosignal-Kompressionsverfahren des Standes der Technik und das Sprachsignal-Kompressionsverfahren des Standes der Technik sind sich dahingehend ähnlich, dass die Komponenten der spektralen Hülle aus dem Eingangssignal durch die standardmäßige LPC-Analyse entfernt werden, d.h. Restsignale erhält man durch Normalisieren (Glätten) des Eingangssignals mit Hilfe der spektralen Hülle. Wird die Leistungsfähigkeit dieser LPC-Analyse verbessert oder die geschätzte Präzision der spektralen Hülle, die man durch die LPC-Analyse erhält, erhöht, ist es somit möglich, Informationen unter Beibehaltung einer hohen Klangqualität wirkungsvoller zu komprimieren als mit den Verfahren des Standes der Technik.
  • Bei der standardmäßigen LPC-Analyse wird eine Hülle mit einer Frequenzauflösung derselben Präzision für jedes Frequenzband geschätzt. Um die Frequenzauflösung für ein Niederfrequenzband zu erhöhen, das für das Gehör von Bedeutung ist, d.h. um eine spektrale Hülle eines Niederfrequenzbandes präzise zu erhalten, muss somit der Analysegrad erhöht werden, was zu einem größeren Informationsaufkommen führt.
  • Zudem führt die Erhöhung des Analysegrades zu einer unnötigen Zunahme der Auflösung für ein Hochfrequenzband, das für das Gehör keine große Bedeutung hat. In diesem Fall kann eine Berechnung einer spektralen Hülle erforderlich sein, die einen Spitzenwert in einem Hochfrequenzband hat, wodurch die Klangqualität beeinträchtigt wird.
  • Darüber hinaus erfolgt beim Audiosignal-Kompressionsverfahren des Standes der Technik bei Ausführung der Vektorquantisierung eine Gewichtung einzig auf Basis einer spektralen Hülle. Somit ist bei der standardmäßigen LPC-Analyse eine wirkungsvolle Quantisierung unter Verwendung der Eigenschaften des menschlichen Gehörs unmöglich.
  • Wenn beim Spracherkennungsverfahren das Standes der Technik LPC-Cepstrum-Koeffizienten, die man durch die standardmäßige LPC-Analyse erhält, für die Erkennung verwendet werden, kann möglicherweise keine ausreichende Erkennungsleistung erreicht werden, da sich die LPC-Analyse nicht auf die Eigenschaften des menschlichen Gehörs gründet.
  • Es ist hinlänglich bekannt, dass die menschliche Hörwahrnehmung die Tendenz hat, Niederfrequenzband-Komponenten als wichtig zu erachten und Hochfrequenzband-Komponenten als weniger wichtig als die Niederfrequenzband-Komponenten zu erachten.
  • Es ist ein Erkennungsverfahren auf der Basis einer derartigen Tendenz vorgeschlagen, bei dem Erkennung mit Hilfe von Mel-Koeffizienten ausgeführt wird, die man erhält, indem die LPC-Cepstrum-Koeffizienten einer Mel-Transformation unterzogen werden ("Digital Signal Processing of Speech and Audio Information", by Kiyohiro Sikano, Satosi Nakamura, Siro Ise, Shyokodo, pp. 39~40). Bei der LPC-Analyse zur Erzeugung von LPC-Cepstrum-Koeffizienten werden die Eigenschaften des menschlichen Gehörs jedoch nicht ausreichend berücksichtigt, weshalb Niederbandinformationen, die für das Gehör von Bedeutung sind, unzureichend in den LPC-Mel-Spektrumskoeffizienten wiedergegeben werden, die man erhält, indem die Cepstrum-Koeffizienten einer Mel-Transformation unterzogen werden.
  • Die Mel-Frequenz-Skala ist eine Skala, die aus den Tonhöhen-Wahrnehmungseigenschaften der Menschen gewonnen wird. Es ist hinlänglich bekannt, dass die Tonhöhe von der Intensität des Tons wie auch von der Frequenz abhängig ist. Somit wird ein reiner Ton von 100 Hz und 40 dB SPL als Referenzton von 1000 mel verwendet, wobei Töne, die als das Doppelte oder die Hälfte der Tonhöhe wahrgenommen werden, durch Größenmessung oder dergleichen gemessen und als 2000 mel bzw. 500 mel festgelegt werden. Da die Eigenschaften des menschlichen Gehörs bei der LPC-Analyse zur Erzeugung der LPC-Cepstrum-Koeffizienten unzureichend berücksichtigt werden, wie es oben erläutert wurde, kann eine Verbesserung der substanziellen Erkennungsleistung selbst dann nicht erwartet werden, wenn die Mel-Transformation ausgeführt wird.
  • Darüber hinaus wird bei der standardmäßigen LPC-Analyse eine spektrale Hülle mit derselben Frequenzauflösung für jedes Frequenzband geschätzt. Um die Fre quenzauflösung für ein Niederfrequenzband zu erhöhen, das für das Gehör von Bedeutung ist, d.h. um präzise eine spektrale Hülle eines Niederfrequenzbandes zu erhalten, muss demzufolge der Analysegrad erhöht werden, was zu einer größeren Menge von Parametern und einem erhöhten Durchsatz zur Erkennung führt. Darüber hinaus führt die Erhöhung des Analysegrades zu einem unnötigen Anstieg der Auflösung für ein Hochfrequenzband, wodurch ein Hochfrequenzband möglicherweise ein überflüssiges Merkmal haben kann, das die Erkennungsleistung beeinträchtigt.
  • Es gibt ein weiteres Spracherkennungsverfahren, bei dem die Spracherkennung unter Verwendung von Cepstrum-Koeffizienten oder Mel-Cepstrum-Koeffizienten als Parameter ausgeführt wird. Bei diesem Verfahren ist die Berechnungskomplexität der DFT- oder Bandpass-Filterbank weitaus größer als jene bei der LPC-Analyse.
  • Ein Beispiel eines Spracherkennungsalgorithmus', der auf der Mel-Cepstral-Analyse basiert, ist in L. Zhou and S. Imai, "Multisegment Multiple VQ Codebooks-Based Speaker Independent Isolated-Word Recognition Using Unbiased Mel Cepstrum", IEICE Transactions on Information and Systems, Vol. E78-D, No. 9, pp. 1178-1187 (1995) angegeben. Die Mel-Cepstrum-Koeffizienten, die man aus dem eingegebenen Audiosignal erhält, werden für die Worterkennung verwendet, bei der Vergleiche mit den Daten eines vorbestimmten Codebuches Anwendung finden. Gemäß dem Verfahren in diesem Aufsatz wird der Mel-Cepstrum-Koeffizient durch die umgekehrte Fourier-Transformation geschätzt, die ein Logarithmusspektrum eines eingegebenen Signals auf der Mel-Frequenzachse transformiert, und der Mel-Cepstrum-Koeffizient, den man aus der Mel-LPC-Analyse erhält, für den Vergleich des Erkennungsergebnisses verwendet.
  • Schließlich ist ein weiteres Beispiel einer Spracherkennung des Standes der Technik in H.W. Strube, "Linear prediction on a warped frequency scale", Journal of the Acoustical Society of America Vol. 68 (4), pp. 1071-1976 (1980) beschrieben. Dieser Aufsatz bezieht sich auf die Spracherkennung, basierend auf der linearen Vorhersage im Bezug auf eine verformte Frequenzskala. Vorhersagekoeffizienten über eine verformte Frequenzskala werden aus einer Autokorrelations funktion auf einer verformten Frequenzachse gewonnen. Es sind unterschiedliche Verfahren zur Gewinnung der verformten Autokorrelationsfunktion aus einer Autokorrelationsfunktion auf einer linearen Frequenzskala erläutert.
  • Mit der vorliegenden Erfindung sollen die oben beschriebenen Probleme hinsichtlich der Tatsache gelöst werden, dass die Spracherkennungsleistung verbessert werden kann, indem die folgenden Koeffizienten verwendet werden: Mel-LPC-Koeffizienten, die man als Ergebnis einer LPC-Analyse einer verbesserten Leistungsfähigkeit erhält, d.h. die auf den Eigenschaften des menschlichen Gehörs basiert (im folgenden "Mel-LPC-Analyse" genannt); Mel-PARCOR-Koeffizienten, die man aus den Mel-LPC-Koeffizienten mit einem hinlänglich bekannten Verfahren, ähnlich dem Verfahren zur Gewinnung von PARCOR-Koeffizienten aus den standardmäßigen LPC-Koeffizienten erhält; Mel-LSP-Koeffizienten, die man aus den Mel-LSP-Koeffizienten mit einem hinlänglich bekannten Verfahren, ähnlich dem Verfahren zur Gewinnung von LSP-Koeffizienten aus den standardmäßigen LPC-Koeffizienten erhält; oder Mel-LPC-Cepstrum-Koeffizienten, die man erhält, indem die Mel-LPC-Koeffizienten einer Cepstrum-Transformation unterzogen werden.
  • Um die Leistungsfähigkeit der Audio- oder Sprachsignalkompression oder die Leistungsfähigkeit der Spracherkennung zu verbessern, wurde im allgemeinen die Verwendung dieser Mel-Koeffizienten vorgeschlagen, wegen des enormen Berechnungsaufwandes jedoch nie tatsächlich ausgeführt.
  • Beim Stand der Technik ist eine infinite Operation erforderlich, um diese Koeffizienten zu berechnen, wobei, wenn die Operation begrenzt ist, diese Fehler mit sich bringt. Die Erfinder haben als Ergebnis umfangreicher Untersuchungen im Hinblick auf den existierenden Zustand herausgefunden, dass es eine vollständig neuartige Operation gibt, die eine Operation bereitstellen kann, die ohne jeden Fehler äquivalent zur infiniten Operation ist, indem lediglich die neuartige Operation in einer vorgeschriebenen Häufigkeit ausgeführt wird.
  • Ein Ziel der vorliegenden Erfindung besteht darin, ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung anzugeben, die die Verbesserung der Spracherkennungsleistung realisieren, indem eine Gewichtung der Frequenz auf der Basis der Eigenschaften des menschlichen Gehörs durch Verwendung der oben beschriebenen neuartigen Operation ausgeführt wird.
  • Mit anderen Worten besteht ein Ziel der vorliegenden Erfindung darin, ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung anzugeben, die das Merkmal einer spektralen Hülle wirkungsvoll selbst mit einer geringeren Zahl von Parametern erkennen können, da Parameter, die der spektralen Hülle entsprechen, mit der Mel-LPC-Analyse unter Verwendung einer Gewichtungsfunktion der Frequenz auf der Basis der Eigenschaften des menschlichen Gehörs gewonnen werden, und eine hohe Erkennungsleistung mit einem geringeren Berechnungsumfang als jenem der Verfahren und der Vorrichtung des Standes der Technik mit Hilfe der Parameter realisieren.
  • Dies wird durch die Merkmale der unabhängige Ansprüche erreicht.
  • 1 ist ein Blockschaltbild, das den Aufbau einer Audiosignal-Kompressionsvorrichtung zeigt.
  • 2 ist ein Blockschaltbild, das den detaillierten Aufbau einer Spektralhüllen-Berechnungseinheit darstellt, die Bestandteil der Audiosignal-Kompressionsvorrichtung ist.
  • 3 ist ein Blockschaltbild des detaillierten Aufbaus einer Mel-Koeffizienten-Berechnungseinheit, die Bestandteil des Audiosignal-Kompressionsverfahrens ist.
  • 4 ist ein Blockschaltbild, das einen Berechnungsablauf der Mel-Koeffizienten-Berechnungseinheit zeigt, die Bestandteil der Audiosignal-Kompressionsvorrichtung ist.
  • 5 ist eine Darstellung, die Charakteristika der Frequenzachsen-Verformungsfunktion (Allpassfilter) darstellt.
  • 6 ist ein Blockschaltbild des detaillierten Aufbaus einer Hüllenberechnungseinheit, die Bestandteil der Audiosignal-Kompressionsvorrichtung ist.
  • 7 zeigt ein Blockschaltbild des Aufbaus der Spracherkennungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung.
  • 8 ist ein Blockschaltbild, das den detaillierten Aufbau einer Mel-LPC-Analyseeinheit darstellt, die in der Spracherkennungsvorrichtung gemäß der Ausführungsform enthalten ist.
  • 1 ist ein Blockschaltbild, das den Aufbau einer Audiosignal-Kompressionsvorrichtung darstellt. In der Zeichnung kennzeichnet Bezugszeichen 1 eine Zeit-/Frequenz-Transformationseinheit, die eine Zeitreihe eines digitalen Audioeingangssignals oder eines Sprachsignals in eine Frequenzcharakteristik-Signalfolge für jede Länge einer spezifischen Periode (Frame) durch die MDCT, die FFT oder dergleichen transformiert. Bezugszeichen 2 kennzeichnet eine Spektralhüllen-Berechnungseinheit, die für jeden Frame eine spektrale Hülle, die jeweils unterschiedliche Auflösungen für unterschiedliche Frequenzen haben, aus dem Eingangsaudiosignal unter Verwendung der Mel-LPC-Analyse einschließlich einer Frequenzverformungsfunktion für ein Vorhersagemodell ermittelt. Das Bezugszeichen 3 beschriftet eine Normalisierungseinheit, die die Frequenzcharakteristik-Signalfolge, die von der Zeit-/Frequenz-Transformationseinheit 1 berechnet wird, normalisiert, indem sie diese durch die spektrale Hülle dividiert, die man durch die Spektralhüllen-Berechnungseinheit 2 erhält, um die Frequenzcharakteristik zu glätten. Bezugszeichen 4 verweist auf eine Leistungsnormalisierungseinheit, die die Frequenzcharakteristik-Signalfolge, die durch die Normalisierungseinheit 3 geglättet wurde, einer Leistungsnormalisierung auf der Basis des Maximalwertes oder Mittelwertes der Leistung unterzieht. Bezugszeichen 5 bezeichnet eine Mehrstufen-Quantisierungseinheit für die Vektorquantisierung der Frequenzcharakteristik-Signalfolge, die durch die Normalisierungseinheit 3 und die Leistungsnormalisierungseinheit 4 geglättet wurde. Bestandteil der Mehrstufen-Quantisierungseinheit 5 sind eine Erststufen-Quantisiereinrichtung 51, eine Zweitstufen-Quantisiereinrichtung 52, ..., und eine N-Stufen-Quantisiereinrichtung 53, die in Reihe geschaltet sind. Bezugszeichen 6 kennzeichnet eine Gehörgewichtungs-Berechnungseinheit, die die Frequenzcharakteristik-Signalfolge, die aus der Zeit-/Frequenz-Transformationseinheit 1 ausgegeben wurde, und die spektrale Hülle empfängt, die in der Spektralhüllen-Berechnungseinheit 2 ermittelt wurde, und Gewichtungskoeffizienten, die für Quantisierung in der Quantisierungseinheit 5 verwendet werden, auf der Basis der Eigenschaften des menschlichen Gehörs ermittelt.
  • Als nächstes wird der Betrieb der Audiosignal-Kompressionsvorrichtung beschrieben. Eine Zeitreihe eines digitalen Audioeingangssignals (im folgenden der Einfachheit halber mit Eingangssignal bezeichnet), wird in eine Frequenzcharakteristik-Signalfolge für jede Länge einer spezifischen Periode (Frame) in der Zeit-/Frequenz-Transformationseinheit 1 durch die MDCT, FFT oder dergleichen transformiert.
  • Weiterhin wird aus dem Eingangssignal eine spektrale Hülle, die unterschiedliche Auflösungen für unterschiedliche Frequenzen hat, in der Spektralhüllen-Berechnungseinheit Frame für Frame unter Anwendung der Mel-LPC-Analyse einschließlich Frequenzverformung in einem Vorhersagemodell ermittelt.
  • 2 stellt die Spektralhüllen-Berechnungseinheit 2 dar, die eine spektrale Hülle mit unterschiedlichen Auflösungen für unterschiedliche Frequenzen aus dem Eingangssignal mit Hilfe der Mel-LPC-Analyse ermittelt. Die Berechnungseinheit 2 beinhaltet weiterhin eine Hüllenberechnungseinheit 22, die eine spektrale Hülle einer linearen Frequenz berechnet, die bei der Spektralglättung Verwendung findet. Im folgenden werden die Mel-Koeffizienten-Berechnungseinheit 21 und die Hüllenberechnungseinheit 22 erläutert.
  • 3 zeigt den Überblick über den Vorgang, der von der Mel-Koeffizienten-Berechnungseinheit 21 ausgeführt wird. In der Zeichnung 3 kennzeichnet Bezugszeichen 211 mehrere Stufen von Allpassfiltern, die zur Umwandlung des Eingangssignals in ein frequenzverformtes Signal verwendet werden. Bezugszeichen 212 verweist auf eine Linearkopplungseinheit, die eine Linearkopplung zwischen Ausgangssignalen aus den Allpassfiltern 211 und den Vorhersagekoeffizienten herstellt und anschließend die Prädiktoren des Eingangssignals ausgibt. Bezugszeichen 213 bezeichnet eine Fehlerquadrat-Operationseinheit, die Mel-LPC-Koeffizienten durch Anwenden einer Fehlerquadratmethode auf die Prädiktoren, die aus der Linearkopplungseinheit 212 ausgegeben werden, und auf die Signale, die aus den Allpassfiltern 211 ausgegeben werden, ausgibt.
  • Nun folgt eine Beschreibung eines Verfahrens zur Schätzung von LPC-Koeffizienten, die eine unterschiedliche Auflösung für unterschiedliche Frequenzen haben, d.h. Mel-LPC-Koeffizienten, unter Bezugnahme auf 3.
  • Zu Beginn wird ein Eingangssignal x[n] mit Hilfe des Allpassfilters i-ter Ordnung z ~–1 gefiltert, um ein Ausgangssignal yi[n] zu erhalten, wobei dieses Ausgangssignal yi[n] mit einem Vorhersagekoeffizient –ãi, der durch die Linearkopplungseinheit 212 erzeugt wird, linear gekoppelt wird, was zu einem Prädiktor y ^0(n) des Eingangssignals x[n] führt und durch die folgende Formel (1) dargestellt ist: y ^0|n| = –{α ~1y1[n] + α ~2y2[n] +...+ α ~pyp[n]} (1)wobei [n] die numerische Folge auf der Zeitachse bezeichnet. Das Ausgangssignal yi[n] erhält man aus den Formeln (5) und (11), die später erläutert werden.
  • Das Allpassfilter z ~–1 stellt sich wie folgt dar:
    Figure 00110001
    wobei z der Operator der z-Transformation ist.
  • 5 zeigt Frequenzcharakteristika der Allpassfilter 211. In der Zeichnung stellt die Abszisse eine Frequenzachse vor der Transformation und die Ordinate eine Frequenzachse nach der Transformation dar. Diese Zeichnung zeigt den Zustand, bei dem der Wert von α im Bereich von α = 0,5 bis α = 0,8 in Schritten von 0,1 variiert. Ist der Wert von α positiv, werden Niederfrequenzbänder erweitert und Hochfrequenzbänder reduziert. Ist andererseits der Wert von α negativ, gelten die umgekehrten Beziehungen.
  • Da Audiosignale oder Sprachsignale, die unterschiedliche Abtastfrequenzen, d.h. unterschiedliche Bandbreiten haben, als Eingangssignale angenommen werden, sind gemäß der vorliegenden Erfindung Frequenzauflösungen, die auf die Eigen schaften des menschlichen Gehörs angepasst sind, bei Ermittlung einer spektralen Hülle verfügbar, indem ein Wert α entsprechend jedem Signal in Übereinstimmung mit der Abtastfrequenz ermittelt wird. Beispielsweise ist eine Bark-Frequenzskala allgemein als Skala bekannt, die aus der Messung einer kritischen Bandbreite abgeleitet wird, die sich auf die Gehörfrequenzauflösung bezieht, wobei die Möglichkeit besteht, den Wert von α gemäß dieser Charakteristik zu bestimmen.
  • Die Bark-Frequenzskala ist eine Skala auf der Basis der Konzeption eines Gehörfilters, das von Fletcher vorgeschlagen ist, wobei das Gehörfilter, das von Fletcher vorgeschlagen ist, ein Bandfilter mit einer Mittenfrequenz ist, die sich fortwährend ändert. Das Bandfilter, das eine Mittenfrequenz aufweist, die einem Signalton nächstgelegen ist, führt eine Frequenzanalyse des Signaltons aus, wobei Rauschkomponenten, die die Tonmaskierung beeinflussen, auf die Frequenzkomponenten innerhalb dieses Bandfilters begrenzt werden. Fletcher benannte die Bandbreite dieses Bandfilters als "Kritisches Band".
  • Daneben ist eine Mel-Frequenzskala allgemein als psychologische Skala bekannt, die man erhält, indem die Wahrnehmung der Tonhöhe gemäß einem persönlichen subjektiven Standpunkt direkt quantisiert wird, wobei es möglich ist, den Wert α in Übereinstimmung mit dieser Charakteristik zu ermitteln.
  • Wenn die Mel-Frequenzskala als Gewichtungsfunktion der Frequenz auf der Basis der Eigenschaften des menschlichen Gehörs angewendet wird, stellen die Erfinder den Wert α beispielsweise wie folgt ein: α = 0,31 für eine Abtastfrequenz von 8 kHz, α = 0,35 für 10 kHz, α = 0,41 für 12 kHz, α = 0,45 für 16 kHz und α = 0,6 ~ 0,7 für 44,1 kHz. Wird die Bark-Frequenzskala als Gewichtungsfunktion der Frequenz auf der Basis der Eigenschaften des menschlichen Gehörs angewendet, kann der Wert α je nach Wunsch von den oben beschriebenen Werten abgeändert werden. Für den Fall der Bark-Frequenzskala wird beispielsweise α = 0,51 für 12 kHz verwendet.
  • Um als nächstes den Quadratgesamtfehler ε zwischen dem Ausgangssignal yi[n] und dem Prädiktor
    Figure 00130001
    [n] zu minimieren, wobei dieser Fehler ε in der folgenden Formel (3) ausgedrückt ist, wird ein Koeffizient ãi in der Fehlerquadrat-Operationseinheit 213 mit Hilfe der Fehlerquadratmethode ermittelt.
    Figure 00130002
    wobei p die Ordnung des Vorhersagekoeffizienten ist. Der Wert von p kann vorexperimentell unter Berücksichtigung des Berechnungsumfangs für die Signalkompression eingestellt werden. Ist das Eingangssignal ein Sprachsignal, kann der Wert auf 8~14 eingestellt werden, und ist das Eingangssignal ein Audiosignal, kann der Wert auf 10~20 eingestellt werden.
  • Es gelten jedoch ã0 = 1 (4)und y0 = [n] = x[n] (5)
  • Der Mel-LPC-Koeffizient, der den Quadratgesamtfehler ε der Formel (3) minimiert, ist durch die folgende Normalgleichung (6) gegeben.
    Figure 00130003
    wobei der Koeffizient Φ(i, j) eine Autokorrelationsfunktion (Mel-Autokorrelationsfunktion) auf einer Mel-Frequenzachse (Mel-Frequenzdomäne) ist und durch die folgende Formel (7) ausgedrückt ist.
  • Figure 00140001
  • In diesem Fall wird gemäß dem Parceval'schen Theorem die Funktion Φ(i, j) auf das Spektrum
    Figure 00140002
    auf der Linearfrequenzachse durch die folgende Formel (8) bezogen.
    Figure 00140003
    wobei (i, j) die numerische Folge in der Frequenzdomäne kennzeichnet.
  • Weiterhin lautet die Formel (8), die zur einer Formel auf der Mel-Frequenzachse umgewandelt wird, wie folgt:
    Figure 00140004
    jedoch gilt
  • Figure 00140005
  • Die Formel (9) erhält man durch die Fourier-Transformation des Allpassfilters, die mit Formel (2) dargestellt ist.
  • Forme (9) bedeutet, dass die Mel-Autokorrelationsfunktion Φ(i, j) gleich der umgekehrten Fourier-Transformation des Leistungsspektrums auf der Mel-Frequenzachse ist. Somit wird die Koeffizientenmatrix der Formel (6) zu einer toeplitzartigen Autokorrelationsmatrix, wobei man die Mel-LPC-Koeffizienten durch eine einfache periodische Formel gewinnen kann.
  • Nun folgt eine Beschreibung des Vorgangs einer praktischen Berechnung zur Ermittlung der Mel-LPC-Koeffizienten, deren Ablauf in 4 dargestellt ist.
  • (Schritt 1)
  • Ein Eingangssignal x[n] wird in Schritt S1 bezogen, wobei das Signal unter Verwendung des Allpassfilters i-ter Ordnung gefiltert wird, um ein Ausgangssignal yi[n] zu erhalten. In Schritt S3 wird das Ausgangssignal yi[n] aus der folgenden Formel (11) abgeleitet.
    Figure 00150001
    (n = 0, ..., N-1, i = 1, ..., p)
  • Es gilt jedoch y0[n] = x[n].
  • (Schritt 2)
  • In Schritt S4 wird eine Produkt-Summenoperation des Ausgangssignals x[n] und des Filterausgangssignals yi[n] ausgeführt, wodurch man eine Autokorrelationsfunktion auf der Mel-Frequenzachse in Schritt S5 erhält. Da die Mel-Autokorrelationsfunktion Φ(i, j) lediglich von der Differenz der Anzahl der Stufen der Allpassfilter |i-j| infolge der Beziehung von Formel (9) abhängt, kann in diesem Fall die Mel-Autokorrelationsfunktion mit der Produkt-Summenoperation von N-Termen berechnet werden, wie es in der folgenden Formel (12) dargestellt ist, so dass eine Näherung durch Beenden der Berechnung nicht erforderlich ist. Die Formel (12) erhält man durch Umwandeln der Formel (7) unter Verwendung der Formeln (5) und (11).
  • Figure 00160001
  • Insbesondere ist aus Formel (12) zu erkennen, dass die Operation zur Ermittlung der Mel-Autokorrelationsfunktion, die eine infinite Zahl von Berechnungen erfordert, sofern sie mit dem herkömmlichen Berechnungsverfahren aus Formel (7) übereinstimmt, durch eine finite Zahl von Berechungen abgeschlossen werden kann. Wird die Operation in einer finiten Zahl von Berechungen beendet, anstelle eine infinite Zahl von Berechnungen auszuführen, ist weiterhin keine Näherung, wie etwa das Abschneiden einer Wellenform, zur Beendigung erforderlich, weshalb kein Fehler auftritt, der das Abschneiden der Wellenform begleitet. Da der Berechnungsumfang nur doppelt so groß ist, wie jener für die herkömmlichen Autokorrelationskoeffizienten, kann sie direkt aus der Wellenform bezogen werden. Dies ist ein wichtiger Punkt, der sich definitiv vom herkömmlichen Berechungsverfahren unterscheidet, das in Formel (7) gezeigt ist.
  • (Schritt 3)
  • In Schritt S6 wird die Normalgleichung mit Hilfe der Mel-Autokorrelationsfunktion Φ(i, j) durch einen allgemein bekannten Algorithmus, wie etwa der Durbin-Methode aufgelöst, wodurch man die Mel-Koeffizienten in Schritt S7 erhält.
  • 6 zeigt den Überblick über die Hüllenberechnungseinheit 22. In 6 verweist Bezugszeichen 221 auf eine Umkehr-Mel-Transformationseinheit, die die Mel-LPC-Koeffizienten einer Umkehr-Mel-Transformation unterzieht und LPC-Koeffizienten einer linearen Frequenz ausgibt. Bezugszeichen 222 kennzeichnet eine FFT-Einheit, die die LPC-Koeffizienten der linearen Frequenz einer Fourier-Transformation unterzieht und eine spektrale Hülle ausgibt.
  • Unter Bezugnahme auf 6 erfolgt eine Beschreibung eines Verfahrens für das Ermitteln einer spektralen Hülle einer linearen Frequenz, die für die Spektrumsglättung verwendet wird, aus den LPC-Koeffizienten, die unterschiedliche Auflösungen für unterschiedliche Frequenzen haben, d.h. aus den Mel-Koeffizienten ãi.
  • Als erstes wird in der Umkehr-Mel-Transformationseinheit 221 ein LPC-Koeffizient b ~l aus dem Mel-Koeffizient ãi gemäß der folgenden Umkehr-Mel-Transformation ermittelt.
  • Figure 00170001
  • Die Formel kann praktisch durch Berechnen der periodischen Formel nach Oppenheim, die hinlänglich bekannt ist, aufgelöst werden. In der Formel (13) bezeichnet z ~–1 die Allpassfilter, wobei dies durch die folgende Formel (14) ausgedrückt ist. Dieses Allpassfilter erhält man durch Ersetzen von –α in Formel (12) durch +α.
  • Figure 00170002
  • Auf diese Weise ist es möglich, die Vorhersagekoeffizienten zu erhalten, die von der Mel-Frequenz in die lineare Frequenz transformiert werden. Anschließend erhält man in der FFT-Einheit 222 eine Linearfrequenz-Spektralhülle S(e), die für die Spektralglättung verwendet wird, aus dem Linearfrequenz-LPC-Koeffizient b ~l mit Hilfe der FFT, wie in der folgenden Formel (15).
  • Figure 00170003
  • Als nächstes wird in der Normalisierungseinheit 3 die Frequenzcharakteristik geglättet, indem die berechnete Frequenzcharakteristik-Signalfolge durch die spektrale Hülle zur Normalisierung dividiert wird. Die Frequenzcharakteristik-Signalfolge, die durch die Normalisierungseinheit 3 geglättet wird, wird einer Leistungsnormalisierung in der Leistungsnormalisierungseinheit 4 auf der Basis des Maximalwertes oder des Mittelwertes des Leistung unterzogen.
  • Daneben wird bei Sprachsignalkompression die Normalisierung mit einer spektralen Hülle in ähnlicher Weise ausgeführt, wie jene, die von der Normalisierungseinheit 3 durchgeführt wird. Um genau zu sein, wird eine Zeitreihe eines Eingangssprachsignals einer LPC-Analyse für jeden Frame unterzogen und dadurch in LPC-Spektralhüllenkomponenten, wie etwa LPC-Koeffizienten, LSP-Koeffizienten oder PARCOR-Koeffizienten getrennt, wobei Restsignale eine geglättete Frequenzcharakteristik aufweisen. Das heißt, dieser Vorgang ist äquivalent zur Division der Frequenz unter-Verwendung der Spektralhüllenkomponenten und ebenfalls äquivalent zur Umkehrfilterung auf der Zeitachse unter Verwendung der Spektralhüllenkomponenten, die man durch die LPC-Analyse erhält, wie etwa LPC-Koeffizienten, LSP-Koeffizienten oder PARCOR-Koeffizienten.
  • Somit kann die Sprachsignalkompression realisiert werden, indem eine Umkehrfilterung auf der Zeitachse ausgeführt wird oder das Eingangssignal in Spektralhüllenkomponenten und Restsignale mit Hilfe der folgenden Koeffizienten getrennt wird: Mel-LSP-Koeffizienten, die man aus der eingegebenen Sprache erhält, Mel-PARCOR-Koeffizienten, die man aus den Mel-LPC-Koeffizienten mit Hilfe eines hinlänglich bekannten Verfahren, ähnlich dem Verfahren für den Erhalt der PARCOR-Koeffizienten aus standardmäßigen LPC-Koeffizienten, erhält, oder Mel-LSP-Koeffizienten, die man aus den Mel-LPC-Koeffizienten durch das hinlänglich bekannte Verfahren, ähnlich dem Verfahren zum Erhalt der LSP-Koeffizienten aus den standardmäßigen LPC-Koeffizienten, erhält.
  • Andererseits werden die Frequenzcharakteristik-Signalfolge, die aus der Zeit-/Frequenz-Transformationseinheit 1 ausgegeben wird, und die spektrale Hülle, die man in der Spektralhüllen-Berechungseinheit 2 erhält, in die Gehörgewichtungs-Berechungseinheit 6 eingegeben. In der Einheit 6 werden Charakteristiksignale des Spektrums der Frequenzcharakteristik-Signalfolge, die aus der Zeit-/Frequenz-Transformationseinheit 1 ausgegeben werden, auf der Basis der Eigenschaften des menschlichen Gehörs, wie etwa Eigenschaften der minimalen Hörgrenze und Gehörmaskierungseigenschaften, berechnet und Gewichtungskoeffizienten, die für die Quantisierung verwendet werden, auf der Basis der Charakteristiksignale und der spektralen Hülle gewonnen.
  • Die Restsignale, die aus der Leistungsnormalisierungseinheit 4 ausgegeben werden, werden in der Erststufen-Quantisiereinrichtung 51 der mehrstufigen Quantisiereinheit 5 unter Verwendung der Gewichtungskoeffizienten quantisiert, die man durch die Gehörgewichtungs-Berechungseinheit 6 erhält, und anschließend die Quantisierungs-Fehlerkomponenten, die man als Ergebnis der Quantisierung in der Erststufen-Quantisiereinrichtung 51 erhält, in der Zweitstufen-Quantisiereinrichtung 52 unter Verwendung der Gewichtungskoeffizienten quantisiert, die man durch die Gehörgewichtungs-Berechungseinheit 6 erhält. Anschließend werden in jeder der zahlreichen Stufen der Quantisiereinrichtung die Quantisierungs-Fehlerkomponenten quantisiert, die man durch Quantisierung in der vorherigen Stufe erhält. Jede der Quantisiereinrichtungen gibt Codes als Ergebnis der Quantisierung aus. Sind die Quantisierungs-Fehlerkomponenten, die man durch Quantisierung in der (N-1)-Stufen-Quantisiereinrichtung erhält, in der N-Stufen-Quantisiereinrichtung 53 unter Verwendung der Gewichtungskoeffizienten quantisiert, die man durch die Gehörgewichtungs-Berechungseinheit 6 erhält, ist die Kompressionscodierung des Audiosignals abgeschlossen.
  • Gemäß dem Audiosignal-Kompressionsverfahren und der zugehörigen Vorrichtung dieser beispielhaften Ausführungsform normalisiert, wie oben beschrieben, die Normalisierungseinheit 3 eine Frequenzcharakteristik-Signalfolge, die aus einem Eingangsaudiosignal berechnet wird, mit Hilfe einer spektralen Hülle, die unterschiedliche Auflösungen für unterschiedliche Frequenzen auf der Basis der Eigenschaften des menschlichen Gehörs hat. Somit kann die Frequenzcharakteristik-Signalfolge präzise geglättet werden, was zu einer effizienten Quantisierung führt.
  • Zudem wird der Aufwand für die Vektorquantisierung in der Mehrstufen-Quantisiereinheit 5 verringert, was zu einer effizienten Quantisierung führt. Da die Frequenzcharakteristik-Signalfolge durch begrenzte Informationen (Codes) bei der Vektorquantisierung dargestellt wird, kann die Frequenzcharakteristik-Signalfolge, die eine einfachere Form hat, mit weniger Codes dargestellt werden.
  • Um bei der vorliegenden Erfindung die Form der Frequenzcharakteristik-Signalfolge zu vereinfachen, wird somit die Normalisierung unter Verwendung der spektralen Hülle ausgeführt, die die schematische Form der Frequenzcharakteristik-Signalfolge darstellt. Da die spektrale Hülle, die unterschiedliche Auflösungen für unterschiedliche Frequenzen aufweist, als schematische Form verwendet wird, kann darüber hinaus die Form der Frequenzcharakteristik-Signalfolge präziser vereinfacht werden, was zu einer wirkungsvollen Quantisierung führt.
  • Weiterhin führen die Vektorquantisiereinrichtungen 51~53 der Mehrstufen-Quantisiereinheit 5 die Vektorquantisierung unter Verwendung der Gewichtungskoeffizienten der Frequenz als Gewichtungen für die Quantisierung, die durch die Gehörgewichtungs-Berechungseinheit 6 berechnet werden, auf der Basis des Spektrums des Eingangsaudiosignals, der Eigenschaften des menschlichen Gehörs und der spektralen Hülle aus, die unterschiedliche Auflösungen für unterschiedliche Frequenzen auf der Basis der Eigenschaften des menschlichen Gehörs aufweist. Somit kann eine wirkungsvolle Quantisierung mit Hilfe der Eigenschaften des menschlichen Gehörs ausgeführt werden.
  • In der Mel-Koeffizienten-Berechnungseinheit 21 werden die LPC-Koeffizienten, die unterschiedliche Auflösungen für unterschiedliche Frequenzen aufweisen, aus dem Eingangssignal unter Anwendung der Mel-LPC-Analyse ermittelt, d.h. man erhält die Mel-LPC-Koeffizienten. Man kann die Mel-LPC-Koeffizienten jedoch mit folgender Vorgehensweise erhalten. Das heißt, das Eingangssignal wird durch das Allpassfilter in ein frequenzverformtes Signal umgewandelt und dieses frequenzverformte Signal der standardmäßigen LPC-Analyse unterzogen, um eine spektrale Hülle zu erhalten, die unterschiedliche Auflösungen für unterschiedliche Frequenzen aufweist. Es folgt eine Beschreibung eines Verfahrens zur Schätzung von LPC-Koeffizienten, die unterschiedliche Auflösungen für unterschiedliche Frequenzen haben, d.h. von Mel-LPC-Koeffizienten.
  • Zu beginn wird ein Eingangssignal x[n] einer Transformation von der Frequenzachse zur Mel-Frequenzachse in Übereinstimmung mit der folgenden Formel (16) unterzogen, um dadurch ein Ausgangssignal x ~l[n] zu erhalten.
  • Figure 00210001
  • In diesem Fall ist das Allpassfilter z ~–j durch die Formel (2) dargestellt.
  • Anschließend wird dieses Ausgangssignal x ~l[n] der standardmäßigen LPC-Analyse unterzogen, um die Mel-LPC-Koeffizienten ãi, d.h. Koeffizienten zu erhalten, die unterschiedliche Auflösungen für unterschiedliche Frequenzen haben.
  • Tatsächlich kann die Formel (16) durch Berechnen der hinlänglich bekannten Formel nach Oppenheim aufgelöst werden. Die Mel-Koeffizienten-Berechungseinheit 21 kann die LPC-Koeffizienten verwenden, die unterschiedliche Auflösungen für unterschiedliche Frequenzen haben, die man bei einem derartigen Verfahren erhält.
  • Wenngleich die Spektralhüllen-Berechungseinheit 2 eine spektrale Hülle erhält, die unterschiedliche Auflösungen für unterschiedliche Frequenzen aufweist, kann die Einheit 2 weiterhin aus einem Eingangssignal durch direktes Verformen des Eingangssignals unter Verwendung des Allpassfilters eine derartige spektrale Hülle durch ein weiteres Verfahren erhalten, bei dem das Leistungsspektrum des Eingangssignals auf der Frequenzachse erneut abgetastet, d.h. interpoliert wird, um ein Leistungsspektrum mit einer verformten Frequenzachse, d.h. ein meltransformiertes Leistungsspektrum, zu erhalten, worauf dieses Leistungsspektrum einer Umkehr-DFT unterzogen wird, um die spektrale Hülle zu erhalten.
  • Zudem kann die Spektralhüllen-Berechnungseinheit 2 eine Autokorrelationsfunktion mit einer verformten Frequenzachse durch Filterung einer Autokorrelationsfunktion erhalten, die aus einem Eingangssignal mit Hilfe zahlreicher Stufen von Allpassfiltern gewonnen wird, und anschließend eine spektrale Hülle, die unterschiedliche Auflösungen für unterschiedliche Frequenzen aufweist, aus der resultierenden Autokorrelationsfunktion beziehen.
  • Obwohl bei der Audiosignal-Kompressionsvorrichtung von 1 die Gehöhrgewichtungs-Berechungseinheit 6 eine spektrale Hülle zur Berechnung der Gewichtungskoeffizienten verwendet, kann diese Einheit 6 die Gewichtungskoeffizienten berechnen, indem sie lediglich das Spektrum des Eingangsaudiosignals und die Eigenschaften des menschlichen Gehörs verwendet.
  • Bei der Audiosignal-Kompressionsvorrichtung von 1 führen zudem sämtliche der Vektorquantisiereinrichtungen der Mehrstufen-Quantisiereinheit 5 die Quantisierung mit Hilfe der Gewichtungskoeffizienten auf der Basis der Eigenschaften des menschlichen Gehörs aus, die man in der Gehörgewichtungs-Berechnungseinheit 6 erhält. So lange jedoch eine der Vektorquantisiereinrichtungen die Quantisierung unter Verwendung der Gewichtungskoeffizienten auf der Basis der Eigenschaften des menschlichen Gehörs durchführt, kann eine wirkungsvollere Quantisierung realisiert werden, als dies der Fall ist, wenn derartige Gewichtungskoeffizienten auf der Basis des Eigenschaften des menschlichen Gehörs keine Verwendung finden.
  • Wenngleich beschrieben ist, dass ein Signal, das von der Audiosignal-Kompressionsvorrichtung aus 1 komprimiert werden soll, ein Signal innerhalb eines Audiobandes ist, kann es ein Signal innerhalb eines Sprachbandes sein, wobei in diesem Fall die Vorrichtung von 1 als Sprachsignal-Kompressionsvorrichtung ohne Abänderung verwendet werden kann.
  • Obwohl die Audiosignal-Kompressionsvorrichtung aus 1 die Mel-Frequenzskala als eine Gewichtungsfunktion der Frequenz auf der Basis der Eigenschaften des menschlichen Gehörs verwendet, kann diese Vorrichtung in eine Audiosignal-Kompressionsvorrichtung geändert werden, die eine Signalkompression auf der Basis einer Bark-Frequenzskala ausführt, ohne dass der Blockaufbau von 1 verändert wird, indem sie lediglich adaptiv den Wert von α der Allpassfilter ändert.
  • 7 ist ein Blockschaltbild, das den Aufbau einer Spracherkennungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. In der Zeichnung verweist Bezugszeichen 7 auf eine Mel-LPC-Analyseeinheit, die Mel-LPC- Koeffizienten, die unterschiedliche Auflösungen für unterschiedliche Frequenzen haben, aus einer eingegebenen Sprache Frame für Frame unter Verwendung eines Mel-Vorhersagefilters einschließlich Frequenzverformung in einem Vorhersagemodell berechnet. Bezugszeichen 8 kennzeichnet eine Cepstrum-Koeffizienten-Berechungseinheit, die die Mel-LPC-Koeffizienten, die in der Mel-LPC-Analyseeinheit 7 berechnet werden, in Cepstrum-Koeffizienten umwandelt. Bezugszeichen 9 bezeichnet eine Spracherkennungseinheit, die Ähnlichkeiten zwischen den Zeitreihen von Cepstrum-Koeffizienten, die in der Cepstrum-Koeffizienten-Berechungseinheit 8 berechnet werden, und mehreren Standardmodellen oder -mustern, wie etwa Worten oder Phonemen berechnet, die im voraus vorbereitet wurden, und die Worte oder Phoneme erkennt, die die größten Ähnlichkeiten aufweisen. Die Spracherkennungsvorrichtung 9 kann entweder für die spezifische Sprecher-Erkennung oder die nicht spezifische Sprecher-Erkennung verwendet werden.
  • Als nächstes wird der Betrieb der Spracherkennungsvorrichtung im Detail beschrieben. Zu Beginn werden aus einer Zeitreihe einer eingegebenen digitalen Sprache (im folgenden auch als Eingabesignal bezeichnet) Mel-LPC-Koeffizienten entsprechend einer spektralen Hülle, die unterschiedliche Auflösungen für unterschiedliche Frequenzen hat, für jede Länge eines spezifischen Periode (Frame) unter Anwendung der Mel-LPC-Analyse einschließlich Frequenzverformung in einem Vorhersagemodell bezogen. Nun wird der Betrieb der Mel-LPC-Analyseeinheit 7 beschrieben.
  • 7 zeigt schematisch die Mel-LPC-Analyseeinheit 7. Es folgt eine Beschreibung eines Verfahrens zu Berechnung von LPC-Koeffizienten, die unterschiedliche Auflösungen für unterschiedliche Frequenzen aufweisen, d.h. von Mel-LPC-Koeffizienten. Bei dieser Ausführungsform wird als Vorhersagemodell ein Modell verwendet, bei dem eine Einheitsverzögerung z–1 durch ein Allpassfilter einer ersten Ordnung ersetzt wird, dargestellt durch:
    Figure 00230001
    wobei dieses Modell wie folgt beschrieben ist:
    Figure 00240001
    wobei ãi der Mel-Koeffizient und α der Verformungskoeffizient zur Änderung der Auflösung der LPC-Analyse für jede Frequenz ist. Die Frequenzcharakteristika des Allpassfilters sind in 5 dargestellt. Beispielsweise ist der Verformungskoeffizient α = 0,31 für eine Abtastfrequenz von 8 kHz, α = 0,35 für 10 kHz, α = 0,41 für 12 kHz, α = 0,45 für 16 kHz und α = 0,60,7 für 44,1 kHz.
  • Es wird nun vorausgesetzt, dass der Vorhersagefehler für eine Wellenform finiter Länge x[n] (n = 0, ..., N-1), die eine Länge von N hat, unter Verwendung eines Fehlerquadrat-Vorhersagefehlers bewertet wird, der sich über ein infinites Zeitintervall erstreckt, wie etwa
    Figure 00240002
  • In diesem Fall wird unter der Annahme, dass y0[n] und yi[n] eine Ausgabewellenform sind, die man durch Filtern des Eingangssignals x[n] unter Verwendung des Allpassfilters i-ter Ordnung erhält, ein Prädiktor
    Figure 00240003
    [n] von yi[n] in Form einer Linearkopplung wie folgt dargestellt:
    Figure 00240004
  • Dadurch wird der Koeffizient ãi, der den minimalen Vorhersagefehler hat, aus der folgenden simultanen Gleichung abgeleitet:
    Figure 00240005
    wobei Φij eine Kovarianz von yi[n] und yj[n] ist. Unter Verwendung des Parceval'schen Theorems und der Darstellung auf der Frequenzachse des Allpassfilters z ~–i , das der Fourier-Transformation unterzogen wird, erhält man Φij durch eine finite Produkt-Summenoperation wie folgt:
    Figure 00250001
  • Wenn zudem Φij = |i-j| ist, kann r[m] die Eigenschaft einer Autokorrelationsfunktion haben, wodurch die Stabilität von 1/(1-Ã(z ~)) sichergestellt ist.
  • Wie aus der Formel (22) zu erkennen ist, muss dies Operation mit einer infiniten Häufigkeit in Übereinstimmung mit der normalen Berechungstechnik ausgeführt werden, die in der Mitte der Formel (22) dargestellt ist, wobei jedoch die Operation durch eine finite Zahl von Berechnungen vervollständigt werden kann, die auf der rechten Seite der Formel (22) dargestellt sind und keinen umfangreichen Berechungsaufwand verlangen. Zudem ist eine Näherung, die zur Beendigung der Operation nach der finiten Zahl von Berechnungen anstelle der Durchführung einer finiten Zahl von Berechnungen notwendig ist, wie etwa das Abschneiden der Wellenform, nicht erforderlich, wodurch kein Fehler auftritt, der das Abschneiden der Wellenform begleitet. Da der Berechnungsumfang nur geringfügig höher ist als der normale Berechungsumfang für die Autokorrelationskoeffizienten, ist es möglich die Koeffizienten direkt aus der Wellenform zu erhalten. Dies ist ein wichtiger Punkt, der sich definitiv vom herkömmlichen Berechungsverfahren unterscheidet.
  • 8 zeigt den Vorgang der praktischen Berechnung für den Erhalt der Mel-LPC-Koeffizienten. Dieser Teil ist identisch mit jenem der beispielhaften Ausführungsform, die in 3 gezeigt ist. In 8 kennzeichnet Bezugszeichen 71 eine Mehrzahl von Stufen von Allpassfiltern für die Transformation eines Eingangssignals in ein frequenzverformtes Signal. Bezugszeichen 72 verweist auf eine Linearkopplungseinheit, die eine Linearkopplung zwischen Ausgangssignalen aus den Allpassfiltern 71 und den Vorhersagenkoeffizienten herstellt und die Prädiktoren des Eingangssignals ausgibt. Bezugszeichen 73 bezeichnet eine Fehlerquadrat-Operationseinheit, die Mel-LPC-Koeffizienten durch Anwendung einer Fehlerquadratmethode auf die Prädiktoren, die aus der Linearkopplungseinheit ausgegeben werden, und auf das Eingangssignal ausgibt.
  • Als nächstes folgt eine Beschreibung eines Verfahrens zur Schätzung von LPC-Koeffizienten, die unterschiedliche Auflösungen für unterschiedliche Frequenzen haben, d.h. von Mel-LPC-Koeffizienten, unter Bezugnahme auf 8.
  • (Schritt 1)
  • Ein Eingangssignal x[n] wird unter Verwendung des Allpassfilters 71 i-ter Ordnung gefiltert, um ein Ausgangssignal yi[n] wie folgt zu erhalten:
    Figure 00260001
    (n = 0, ..., N-1, i = 1, ..., p)
    wobei y0[n] = x[n] ist.
  • (Schritt 2)
  • Durch Ausführen einer Produkt-Summenoperation zwischen dem Eingangssignal x[n] und dem Ausgangssignal yi[n] aus jedem Allpassfilter durch die Linearkopplung 72 gemäß der folgenden Formel (24), erhält man eine Autokorrelationsfunktion auf der Mel-Frequenzachse. Da die Mel-Autokorrelationsfunktion Φ(i, j) lediglich von der Differenz der Anzahl der Stufen der Allpassfilter |i-j| infolge der Beziehung von Formel (9) abhängt, kann sie in diesem Fall mit der Produkt-Summenoperation von N-Termen berechnet werden, wie es in der folgenden Formel (24) dargestellt ist, ohne dass eine Näherung durch Beenden der Operation erforderlich ist.
  • Figure 00260002
  • (Schritt 3)
  • In der Fehlerquadrat-Operationseinheit 73 werden Mel-LPC-Koeffizienten durch Auflösen der Normalgleichung der Formel (6) mit der Mel-Autokorrelationsfunktion Φ(i, j) durch einen hinlänglich bekannten Algorithmus, wie etwa durch die Durbin-Methode ermittelt.
  • In der Cepstrum-Koeffizienten-Berechnungseinheit 8 werden die Mel-LPC-Koeffizienten ãi, die man auf diese Weise erhält, in Cepstrum-Koeffizienten umgewandelt. Das Transformationsverfahren ist bereits bekannt, wobei die Details dieses Verfahrens beispielsweise in "Digital Signal Processing for Audio and Speech Information, von Kiyohiro Sikano, Tetsu Nakamura, Siro Ise, Shokodo, pp. 10-16" angegeben sind. Bei diesem Verfahren kann die Transformation dadurch ausgeführt werden, dass die Mel-LPC-Koeffizienten in ähnlicher Weise behandelt werden wie die standardmäßigen LPC-Koeffizienten. Infolgedessen kann man Cepstrum-Koeffizienten auf der Mel-Frequenzachse erhalten.
  • In der Spracherkennungseinheit 9 werden Ähnlichkeiten zwischen der Zeitreihe der auf diese Weise berechneten Cepstrum-Koeffizienten (im folgenden Mel-LPC-Cepstrum-Koeffizienten genannt) und den zahlreichen standardmäßigen Modellen von Wörtern oder Phonemen, die zuvor vorbereitet wurden, ermittelt und das Wort oder das Phonem mit der größten Ähnlichkeit erkannt.
  • Was das Standardmodell angeht, so gibt es ein Verfahren, das Hidden Markov Modell (HMM) genannt wird, bei dem eine Zeitreihe von Parametern, die jeweils mehreren Wörtern entsprechen, die erkannt werden sollen, als wahrscheinlichkeitstheoretische Übergänge dargestellt werden, wobei dieses Verfahren hinlänglich bekannt ist und weit verbreitet Anwendung findet (z.B. Seiichi Nakagawa "Speech Recognition by Probability Model", Edited by Electronics Information and Communication Society). Genauer gesagt ist das HMM ein Verfahren, bei dem HMM-Modelle Zeitreihen von Parametern von Phonemen oder Wörtern lernen, die Unterschiede zwischen individuellen Personen widerspiegeln, wobei die Erkennung durch Messung erfolgt, wie ähnlich eine Sprache dem Modell hinsichtlich eines Wahrscheinlichkeitswertes ist. Bei dieser Ausführungsform wird die oben beschriebene Zeitreihe von Mel-LPC-Cepstrum-Koeffizienten als Zeitreihe des Parameters verwendet.
  • Weiterhin kann als Standardmodell eine Zeitreihe eines repräsentativen Parameters aus den Zeitreihen der Parameter verwendet werden, die jeweils mehreren Wörtern oder Phonemen entsprechen, die erkannt werden sollen. Oder es kann eine normalisierte Zeitreihe eines Parameters als Standardmodell verwendet werden, den man durch zeitmäßiges oder frequenzmäßiges Normalisieren (Verformen) einer Zeitreihe des Parameters erhält. Beispielsweise gibt es den DP-Abgleich (DP = dynamisches Programmieren) als ein Verfahren zur Normalisierung auf eine willkürliche Länge auf der Zeitachse, wobei dieses Verfahren eine Zeitreihe eines zeitlichen Parameters gemäß einer vorbestimmten entsprechenden Regel normalisieren kann.
  • Bei dieser Ausführungsform kann ein beliebiges der Standardmodelle ohne Probleme verwendet werden, da die Zeitreihe der oben beschriebenen Mel-LPC-Cepstrum-Koeffizienten als Zeitreihe von Parametern verwendet werden kann.
  • Wenngleich bei dieser Ausführungsform die Erkennung unter Verwendung der Mel-LPC-Cepstrum-Koeffizienten als Zeitreihe von Parametern ausgeführt wird, die man aus dem Eingangssignal erhält, besteht die Möglichkeit, für die Spracherkennung die Mel-PARCOR-Koeffizienten, die man aus den Mel-LPC-Koeffizienten mit dem hinlänglich bekannten Verfahren, ähnlich dem Verfahren zur Gewinnung von PARCOR-Koeffizienten aus den standardmäßigen LPC-Koeffizienten, erhält, oder Mel-LSP-Koeffizienten, die man aus den Mel-LPC-Koeffizienten mit dem hinlänglich bekannten Verfahren, ähnlich dem Verfahren zur Gewinnung von LSP-Koeffizienten aus den standardmäßigen LPC-Koeffizienten, erhält, zu verwenden. Weiterhin können die Mel-LPC-Koeffizienten, die Mel-PARCOR-Koeffizienten, die Mel-LSP-Koeffizienten und die Mel-LPC-Cepstrum-Koeffizienten, die man durch die Mel-LPC-Analyse erhält, durch die LPC-Koeffizienten, die PARCOR-Koeffizienten, die LSP-Koeffizienten und die LSP-Cepstrum-Koeffizienten, die man allesamt aus der herkömmlichen LPC-Analyse erhält, auf unterschiedlichen Gebieten, die nicht nur die Spracherkennung, sondern auch die Sprachsynthetisierung und Sprachcodierung beinhalten, ersetzt werden.
  • Bei dieser Ausführungsform erhält die Mel-LPC-Analyseeinheit 7 die LPC-Koeffizienten, die unterschiedliche Auflösungen für unterschiedliche Frequenzen haben, d.h. die Mel-LPC-Koeffizienten, aus dem Eingangssignal unter Verwendung der Mel-LPC-Analyse. Die Einheit 7 kann jedoch die Koeffizienten durch dasselbe Verfahren erhalten, wie es für die oben beschriebene beispielhafte Ausführungsform einer Audiosignal-Kompressionsvorrichtung angewendet wird, wobei dieses Verfahren die Umwandlung des Eingangssignals in ein frequenzverformtes Signal unter Verwendung des Allpassfilters und das Unterziehen des frequenzverformten Signals einer Standard-LPC-Analyse beinhaltet, um die spektrale Hülle zu erhalten.
  • Wie es oben erläutert wurde, erhält man bei dieser Ausführungsform Parameter entsprechend einer spektralen Hülle mit unterschiedlichen Auflösungen für unterschiedliche Frequenzen auf der Basis der Eigenschaften des menschlichen Gehörs durch die Mel-LPC-Analyse mit Hilfe einer Gewichtungsfunktion der Frequenz auf der Basis der Eigenschaften des menschlichen Gehörs. Somit ist es möglich, das Merkmal der spektralen Hülle wirkungsvoll selbst mit einer geringeren Zahl von Parametern zu erkennen, wobei die Anwendung dieser Parameter auf die Spracherkennung eine höhere Erkennungsleistung bei geringerem Verarbeitungsaufwand realisiert.

Claims (6)

  1. Spracherkennungsverfahren zum Erkennen von Sprache aus einem eingegebenen Sprachsignal, umfassend die Schritte: Ausschneiden eines vorbestimmten Zeitabschnittes des Sprachsignals aus dem eingegebenen Sprachsignal (x[n]), Filtern des vorbestimmten Zeitabschnittes des Sprachsignals durch eine Mehrzahl von Allpassfiltern (71, 211), um Filterausgabesignale (yi[n]) von den jeweiligen Filtern zu erhalten, Gewinnen von mel-linearen Vorhersagekoeffizienten (ãi) aus einer Autokorrelationsfunktion auf einer Mel-Frequenzachse, und Erkennen der Sprache unter Verwendung der gewonnenen mel-linearen Vorhersagekoeffizienten (ãi), dadurch gekennzeichnet, dass weiterhin umfassend den Schritt Erhalten der Autokorrelationsfunktion auf der Mel-Frequenzachse unter Verwendung einer endlichen Anzahl von Produkt-Summenoperationen, Formel A, zwischen dem eingegebenen Sprachsignal (x[n]) und den Filterausgabesignalen (yi[n]) von den jeweiligen Filtern, wobei die Formel A wie folgt lautet:
    Figure 00300001
    wobei Φ(i, j) die Autokorrelationsfunktion ist, x[n] das eingegebene Signal ist, und y(i-j)[n] das Filterausgabesignal vom Allpassfilter der Ordnung i-j ist.
  2. Spracherkennungsverfahren nach Anspruch 1, wobei das Allpassfilter der Ordnung i(71, 211) i-Stufen eines Allpassfilters erster Ordnung umfasst.
  3. Spracherkennungsverfahren nach Anspruch 1 oder 2, weiterhin umfassend Berechnen von Parametern, die eine spektrale Hülle darstellen, abgeleitet von den mel-linearen Vorhersagekoeffizienten, Berechnung von Ähnlichkeiten zwischen Zeitreihen der berechneten Parameter und mehreren Standardmodellen, und Erkennen eines unter den mehreren Standardmodellen, welches die größte Ähnlichkeit aufweist.
  4. Spracherkennungsvorrichtung zum Erkennen von Sprache aus einem eingegebenen Sprachsignal, umfassend: eine mel-lineare prädiktive Analyseeinrichtung (7) zum Ausschneiden eines vorbestimmten Zeitabschnittes des Sprachsignals aus dem eingegebenen Sprchsignal (x[n]), zum Filtern des vorbestimmen Zeitabschnittes des Sprachsignals durch eine Mehrzahl von Allpassfiltern (71, 211) mit einer jeweiligen Ordnung i, um Filterausgabesignale (yi [n]) von den jeweiligen Filtern zu erhalten, zum Gewinnen von mel-linearen Vorhersagekoeffizienten (ãi) von einer Autokorrelationsfunktion auf einer Mel-Frequenzachse, und einer Spracherkennungseinrichtung (9) zum Erkennen der Sprache unter Verwendung der mel-linearen Vorhersagekoeffizienten (ãi), dadurch gekennzeichnet, dass die mel-lineare prädiktive Analyseeinrichtung (7) angepasst ist zum Erhalten der Autokorrelationsfunktion auf der Mel-Frequenzachse unter Verwendung einer endlichen Anzahl von Produkt-Summenoperationen, Formel A, zwischen dem eingegebenen Sprachsignal (x[n]) und den Filterausgabesignalen (yi[n]) von den jeweiligen Filtern, wobei die Formel A wie folgt lautet:
    Figure 00320001
    wobei Φ(i, j) die Autokorrelationsfunktion ist, x[n] das eingegebene Signal ist, und y(i-j)[n] das Filterausgabesignal vom Allpassfilter der Ordnung i-j ist.
  5. Spracherkennungsvorrichtung nach Anspruch 4, weiterhin umfassend: eine Parameterberechnungseinrichtung (8) zum Berechnen von Parametern, die eine spektrale Hülle darstellen, abgeleitet von den mel-linearen Vorhersagekoeffizienten, wobei die Spracherkennungseinrichtung (9) angepasst ist zur Berechnung von Ähnlichkeiten zwischen Zeitreihen der in der Parameterberechnungseinrichtung (8) berechneten Parameter und mehreren Standardmodellen, und Erkennen eines unter den mehreren Standardmodellen, welches die größte Ähnlichkeit aufweist.
  6. Spracherkennungsvorrichtung nach Anspruch 4 oder 5, wobei das Allpassfilter der Ordnung i (71, 211) i-Stufen eines Allpassfilters erster Ordnung umfasst.
DE69836785T 1997-10-03 1998-10-02 Audiosignalkompression, Sprachsignalkompression und Spracherkennung Expired - Lifetime DE69836785T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP27094597 1997-10-03
JP27094597 1997-10-03
JP6500598 1998-03-16
JP6500598 1998-03-16

Publications (2)

Publication Number Publication Date
DE69836785D1 DE69836785D1 (de) 2007-02-15
DE69836785T2 true DE69836785T2 (de) 2007-04-26

Family

ID=26406147

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69836785T Expired - Lifetime DE69836785T2 (de) 1997-10-03 1998-10-02 Audiosignalkompression, Sprachsignalkompression und Spracherkennung

Country Status (5)

Country Link
US (2) US6311153B1 (de)
EP (1) EP0907258B1 (de)
KR (1) KR100361883B1 (de)
CA (1) CA2249792C (de)
DE (1) DE69836785T2 (de)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100391935B1 (ko) * 1998-12-28 2003-07-16 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 오디오 신호를 코딩 또는 디코딩하는 방법 및 디바이스
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
KR100333049B1 (ko) * 2000-01-25 2002-04-22 박종섭 심리 음향 캡스트럴 평균 차감법을 이용한 이동통신시스템에서의 음질 평가방법
US6868380B2 (en) * 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
JP3576941B2 (ja) * 2000-08-25 2004-10-13 株式会社ケンウッド 周波数間引き装置、周波数間引き方法及び記録媒体
CN1388965A (zh) * 2000-09-08 2003-01-01 皇家菲利浦电子有限公司 音频信号压缩
US20030202683A1 (en) * 2002-04-30 2003-10-30 Yue Ma Vehicle navigation system that automatically translates roadside signs and objects
US20050114141A1 (en) * 2003-09-05 2005-05-26 Grody Stephen D. Methods and apparatus for providing services using speech recognition
BRPI0415464B1 (pt) * 2003-10-23 2019-04-24 Panasonic Intellectual Property Management Co., Ltd. Aparelho e método de codificação de espectro.
US7672838B1 (en) 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
CN1898724A (zh) * 2003-12-26 2007-01-17 松下电器产业株式会社 语音/乐音编码设备及语音/乐音编码方法
CN101120398B (zh) * 2005-01-31 2012-05-23 斯凯普有限公司 通信***中用于帧连接的方法
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
WO2007083931A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
DE602007003023D1 (de) * 2006-05-30 2009-12-10 Koninkl Philips Electronics Nv Linear-prädiktive codierung eines audiosignals
KR100921869B1 (ko) 2006-10-24 2009-10-13 주식회사 대우일렉트로닉스 음원의 오류 검출 장치
EP2092439A2 (de) * 2006-12-08 2009-08-26 Patrick J. Hall Computergestützte online-übersetzung
EP2133872B1 (de) * 2007-03-30 2012-02-29 Panasonic Corporation Codierungseinrichtung und codierungsverfahren
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP4623124B2 (ja) * 2008-04-07 2011-02-02 ソニー株式会社 楽曲再生装置、楽曲再生方法および楽曲再生プログラム
PT2301021T (pt) 2008-07-10 2017-09-22 Voiceage Corp Dispositivo e método para quantizar e quantizar de modo inverso filtros lpc num super-frame
EP2144231A1 (de) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiokodierungs-/-dekodierungschema geringer Bitrate mit gemeinsamer Vorverarbeitung
KR101764926B1 (ko) 2009-12-10 2017-08-03 삼성전자주식회사 음향 통신을 위한 장치 및 방법
US8532985B2 (en) * 2010-12-03 2013-09-10 Microsoft Coporation Warped spectral and fine estimate audio encoding
US10026407B1 (en) 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients
EP2503794B1 (de) 2011-03-24 2016-11-09 Oticon A/s Audioverarbeitungsvorrichtung, System, Verwendung und Verfahren
RU2505868C2 (ru) * 2011-12-07 2014-01-27 Ооо "Цифрасофт" Способ встраивания цифровой информации в аудиосигнал
WO2013124862A1 (en) 2012-02-21 2013-08-29 Tata Consultancy Services Limited Modified mel filter bank structure using spectral characteristics for sound analysis
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
US20160210975A1 (en) * 2012-07-12 2016-07-21 Adriana Vasilache Vector quantization
US10019983B2 (en) * 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
WO2014035394A1 (en) * 2012-08-30 2014-03-06 Interactive Intelligence, Inc. Method and system for predicting speech recognition performance using accuracy scores
US9591052B2 (en) 2013-02-05 2017-03-07 Apple Inc. System and method for providing a content distribution network with data quality monitoring and management
PT2954518T (pt) * 2013-02-05 2016-12-01 ERICSSON TELEFON AB L M (publ) Método e dispositivo para controlar a ocultação de perda de trama de áudio
CN108922549B (zh) * 2018-06-22 2022-04-08 浙江工业大学 一种基于ip对讲***中音频压缩的方法
CN111210836B (zh) * 2020-03-09 2023-04-25 成都启英泰伦科技有限公司 一种麦克风阵列波束形成动态调整方法
US20210349883A1 (en) * 2020-05-05 2021-11-11 At&T Intellectual Property I, L.P. Automated, user-driven curation and compilation of media segments
CN112444742B (zh) * 2020-11-09 2022-05-06 国网山东省电力公司信息通信公司 一种继电保护通道监视预警***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04264599A (ja) 1991-02-20 1992-09-21 Hitachi Ltd 音声分析合成装置
US5384891A (en) * 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
JPH0435527A (ja) 1990-05-31 1992-02-06 Fujitsu Ltd 多段符号化・復号化方式
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
JPH07111462A (ja) * 1993-10-08 1995-04-25 Takayama:Kk 音声圧縮方法および装置
JPH07160297A (ja) 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
KR960012475B1 (ko) * 1994-01-18 1996-09-20 대우전자 주식회사 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JP3087814B2 (ja) 1994-03-17 2000-09-11 日本電信電話株式会社 音響信号変換符号化装置および復号化装置
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
JPH08123494A (ja) 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JP3353266B2 (ja) 1996-02-22 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder

Also Published As

Publication number Publication date
CA2249792C (en) 2009-04-07
US6477490B2 (en) 2002-11-05
EP0907258A2 (de) 1999-04-07
DE69836785D1 (de) 2007-02-15
US6311153B1 (en) 2001-10-30
US20010044727A1 (en) 2001-11-22
EP0907258A3 (de) 2004-01-02
KR19990036857A (ko) 1999-05-25
KR100361883B1 (ko) 2003-01-24
EP0907258B1 (de) 2007-01-03
CA2249792A1 (en) 1999-04-03

Similar Documents

Publication Publication Date Title
DE69836785T2 (de) Audiosignalkompression, Sprachsignalkompression und Spracherkennung
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
CN1838239B (zh) 一种用于增强信源解码器的设备及方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
EP1041540B1 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
KR101143724B1 (ko) 부호화 장치 및 부호화 방법, 및 부호화 장치를 구비한 통신 단말 장치 및 기지국 장치
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE68910859T2 (de) Detektion für die Anwesenheit eines Sprachsignals.
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE60113602T2 (de) Audiokodierer mit psychoakustischer Bitzuweisung
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及***
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1388145A1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
Ghitza Robustness against noise: The role of timing-synchrony measurement
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
Combrinck et al. On the mel-scaled cepstrum
EP1048025B1 (de) Verfahren zur instrumentellen sprachqualitätsbestimmung
US5696878A (en) Speaker normalization using constrained spectra shifts in auditory filter domain

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP