JP3782103B2 - アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。 - Google Patents

アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。 Download PDF

Info

Publication number
JP3782103B2
JP3782103B2 JP51787295A JP51787295A JP3782103B2 JP 3782103 B2 JP3782103 B2 JP 3782103B2 JP 51787295 A JP51787295 A JP 51787295A JP 51787295 A JP51787295 A JP 51787295A JP 3782103 B2 JP3782103 B2 JP 3782103B2
Authority
JP
Japan
Prior art keywords
buried channel
bits
sample
noise
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP51787295A
Other languages
English (en)
Other versions
JPH08507391A (ja
Inventor
アーノルダス ウェルナー ヨハネス オーメン
マルク エドウィン フロウネウェヘン
デル ウァル ロベルト ヘルブランド ファン
レイモンド ニコラス ヨハン フェルドゥイス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JPH08507391A publication Critical patent/JPH08507391A/ja
Application granted granted Critical
Publication of JP3782103B2 publication Critical patent/JP3782103B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

発明の技術分野
本発明はマルチビットサンプルのストリームとして受信される音声を埋没チャンネルビットを挿入しながら符号化する方法に関するものである。このような方法はM.A.Gerzon及びP.G.Graven,"A High-Rate Buried Channel for Audio CD",preprint3551 of the Audio Eng. Soc. Conv.,Berlin,March 1993,に記載されている。同一著者の国際特許出願WO94/03988,優先日1994年8月5日,公開日1994年2月17日,も参照されたい。第1の引用文献は減算式ディザ処理した雑音整形量子化により埋没チャンネルを付加する比較的簡単な方法に基づくものである。付加された特徴は埋没チャンネルにより高品質の伝送音声を向上しうるが、本願発明者は、この文献は”減算原理”の潜在能力を十分に利用しておらず、埋没チャンネルの最適伝送容量より低い容量、或いは本来高品質の音声、例えばCD音声の予定の残留知覚品質より低い品質をもたらすことを発見した。
発明の概要
従って、本発明の目的は、特に、埋没チャンネルの特性を向上させ、残留知覚品質及び埋没音声チャンネルの伝送容量を両方とも最適にすることにある。
本発明の特徴の一つは、マルチビット入力サンプルのストリームとして受信される音声表現を符号化する方法において、
前記入力サンプルの有限長系列を構成し、該系列内で瞬時不均一可聴しきい値対周波数特性を決定するステップと、
前記入力サンプルから整形雑音信号を減算して処理サンプルを発生させるステップと、
ディザ信号(v)を減算し次いで前記特性に関連するビットレベルより下位の可変数のbビットにより量子化することにより前記ビットレベルより下位の処理サンプルビットをダイナミックに無視するが、前記ビットレベルより上位の少なくとも全ての処理サンプルビットは保持するステップと、
このように無視した処理サンプルビットを前記ディザ信号と、1処理サンプルあたり可変数のbビットを特徴とする埋没チャンネルビットとして置き換えるステップと、
無視されてない処理サンプルビットと埋没チャンネルビットを具えるアップグレードサンプル(y)を出力するステップとを具え、
前記整形雑音信号は、前記アップグレードサンプルと前記処理サンプルとの間のディザ決定差に、ノイズシェイピングフィルタにより整形フィルタリングを施すことにより発生させ、この整形フィルタリングは受信差信号を前記瞬時しきい値対周波数特性に従って修正するものである点にある。
特に、前記差を瞬時しきい値対周波数特性に従って整形フィルタリングすると、人間の聴覚系が比較的鈍感な周波数に”スペクトル空間”を生成することができる。その結果、かなり大きな長さのサンプルに対し1サンプルにつき均等数の埋没チャンネルビットを注入することができる。次の系列に対し、埋没チャンネルビットの数を再び決定する必要がある。本発明の他の特徴は、メインチャンネルの特性の整形に続いて埋没チャンネルの特性も同様に整形して転送容量を最適にする。特に、ディザ信号は整形する必要がある。これはシステムをある程度複雑にする。
ノイズシェイピングフィルタには白色雑音に近い差信号を受信させるのが有利である。多くの場合、この差信号に対する要件はメインチャンネルの品質に与えるその影響については高くないため、ディザは任意の内容を有することができる。他の状態においては、前記差はメインチャンネルの情報と相関しなくてももよく、また自己相関しなくてもよい。後者の状態では、ディザを前処理して相関の適切な欠落を達成する。このようなランダム化手段自体は公知である。
前記整形雑音信号の発生は可変特性を有する量子化フィルタにより行うのが有利である。このようにすると、前記瞬時聴度への適合の改善及び主観的音質の改善が達成される。
前記整形フィルタリングは、それぞれ独自の格子周波数θk cを有するとともに総合スペクトルの局部的パワースペクトル密度を近似する幅Δkを有する一連の基本フィルタ曲線から合成された総合フィルタ曲線を有するフィルタで行うのが有利である。これは、パワースペクトル密度をモデル化する極めて直接的な方法であり、前記格子周波数を不均等間隔のものにすることができる。一般に、これは精度対使用格子周波数の数を改善し、従って計算を高速化する。
本発明は上述した符号化方法を実行する符号化装置及びこの方法を実行することにより得られた信号を復号する復号化装置にも関するものである。種々の他の特徴は請求の範囲の従属項に記載されている。
【図面の簡単な説明】
本発明のこれらの特徴及び他の特徴及び利点を特に添付図面を参照して好適実施例につき以下に詳細に説明する。
図1は本発明装置の全体ブロック図であり、
図2は本発明により改善された埋没チャンネルエンコーダの基礎として使用される減算型ディザ量子化を示し、
図3は典型的な音声スペクトルによりマスクされたしきい値の周波数依存性を示し、
図4は埋没チャンネル形成の第1の典型的な例を示し、
図5は埋没チャンネル形成の第2の典型的な例を示し、
図6はピッチ予測のない簡略CELPエンコーダを示し、
図7はノイズシェピング量子化器を示し、
図8は基本フィルタ曲線を示す。
原理の簡単な説明
埋没チャンネル技術は、オーディオ又は音声信号が所定の長さのサンプルビット列により、知覚音声品質の点からすると実際上高すぎる精度でしばしば表現される事実を利用する。即ち、情報の量を減少させて伝送容量を追加の情報サービスのために開放することができる。追加の情報をメイン信号の下位ビット部分に挿入する。慣例の受信機に対しては、メイン信号のこの変更は、人間聴取者がその差を認識し得なければ問題ない。しかし、高品位受信システムは追加の情報を取り出し、この情報を別の出力端子に発生する。本発明では、受信信号を実際のしきい値対周波数特性に従って修正するために差スペクトルを整形フィルタ処理する。これにより人間の聴覚系があまり感じない周波数に”スペクトル空間”を生成しうる。前記差が白色雑音状である場合には、聴取者は付加チャンネルを殆ど知覚できない。
好適実施例の詳細な説明
図1は本発明装置の全体ブロック図である。ブロック20は、例えば各サンプルが16ビットからなる約44kHzで反復するサンプルストリームとして符号化されたディジタル音声の音声源である。この音声は予め規定された帯域幅を有し、音楽、会話、その他の任意の内容を有することができる。ブロック22はこれらのサンプルの有限長系列を構成し、これらの系列が所定の時間インターバル、例えば1024サンプル=0.02秒を占めるようにするとともに、ここで可聴しきい値対周波数特性を決定する。聴度は入音声信号の限定数のキー特性に基づいて決定することができる。聴度は瞬時周波数に依存し、一つの周波数帯域が他の周波数帯域によりマスキング作用を受ける時には、音声の全体的大きさ又は局部的大きさに依存する。また、聴度は聴取者ごとに相違しうるがこの相違は一般に無視される。可聴しきい値は既知の方法で決定することができ、その結果を後に示す。更に、可聴しきい値の決定後に、サンプルをその下位のbビットを無視することにより量子化する。ブロック24は埋没チャンネルビット源である。埋没チャンネルの性質は、メインチャンネル音声への追加のコメント、例えば表示可能なサブタイトル又はテキスト、マルチチャンネル音声再生における同一又はそれぞれ異なる品質レベルの追加の音声チャンネル、多国語サービス、又はカラオケ又はビデオのような任意のものとすることができる。何の関係もないサービスも考えられる。しかし、特に有利な使用法は埋没チャンネルをMPEGオーディオチャンネルとして規定するものである。この標準規格は高品質のオーディオ伝送を中ビットレートで提供するのに有用であることが証明されている。更に、埋没チャンネル自体は機能的に無関係であるが相まってアップグレードサンプルの埋没部分を構成する2以上のサブチャンネルで構成することができる。ブロック26において、音声源20からの無視されたサンプルビット又はその一部分を、その下位レベルから出発して、埋没チャンネル源24からのビットと置き換える。更に、アップグレードサンプルのストリームの相互離間位置において、1サンプル当たりの無視ビット数に関する指示を埋没チャンネルに挿入し、次の指示が発生するとき適用しうる。効率の良い動作のために、これらの指示の間隔は最適値にセットする必要がある。この間隔が小さすぎると、オーバヘッドが増大する。この間隔が大きすぎると、無視ビットの数が個々のサンプルから見て少なくなりすぎる。伝送用又は記憶用のチャンネル28はアップグレードサンプルを受信機30に供給する。受信機30は、受信したこれらの指示に基づいて、埋没チャンネルビットからサンプルの標準部分を分離することができる。サンプルの標準部分は音声を標準方法で再生するデコーダ32に供給され、置換ビットがサブ可聴雑音を表すものとして維持される。埋没チャンネルビットはこれを正しく処理するようプログラムされた補助デコーダに供給される。他の構成例では、埋没チャンネルデコーダがチャンネル受信機のディジタル出力端子に発生する全サンプルを受信するとともにこれから標準チャンネルを無視して埋没チャンネル情報を抽出するようにする。他方、ノーマル非アップグレード受信機がチャンネルに対し設けられている場合には、この受信機がアップグレードサンプルを、これらのサンプルがノーマルサンプルであるかのように処理する。この受信機はある種のスピーカを附勢するアナログオーディオ増幅器で終わる。この場合にはメインチャンネルビットに相関関係を示さない埋没チャンネルビットは、予定の可聴しきい値より低く維持されているある種の雑音を直接表す。
図2は、前記文献に記載され、本発明の特徴により改善された埋没チャンネルエンコーダ用の減算式ディザ量子化器を示す。bビットのディザ信号vが後述する方法で入力端子52に入力される。素子54、58、60、62は適切なビット幅のディジタル加算器−減算器である。素子56は16ビット受信信号xの精度を打ち切りにより16ビットより少数ビットに減少する量子化器である。このような特徴自体は、S.P.Lipshiz et al,"Quantization and Dither: A theoretical Survey", J. Audio Eng. Soc. Vol.40, no.5, pp.355-375, May, 1992,に記載されている。bビットディザ信号vの使用により、メインチャンネルとの相関関係の欠落が十分であれば、量子化誤差eがスペクトル的に白色雑音に維持され、統計的に入力信号xとほぼ無関係になり、知覚上好適である。ディザ信号は埋没チャンネル信号をランダム処理したものとすることができ、情報を付加したり、犠牲にしたりしない。このようなランダム化は再同期化の必要なしにもとにもどすことができる。ランダム特性はメインチャンネルに対し、埋没チャンネル自体内で指定される。埋没チャンネル自体に関しその信号が良好に構成されている場合には、この信号を慣例の方法でランダム化することができる。同一のディザ信号vを素子54において加算して出力端子66に蓄積用、伝送用、又は他の処理のためのコンパチブル出力信号yを形成する。ブロック64はノイズシェイピングフィルタであり、コンパチブル出力信号yとディザ信号vの導入前の入力信号との差を減算器62から受信する。ノイズシェイピングフィルタ64の出力信号は原オーディオ信号xも受信する減算器60に帰還される。雑音の大きさを9次FIR(有限インパルス応答)フィルタのみで約16dB減少させることができることが確かめられた。このアプローチは匹敵する大きさの埋没チャンネル信号の2−3ビット/サンプルの雑音レベルをCD信号の固有の雑音フロアにする。フィルタ特性H(Z)は、
y=x+|1−H(Z)|2・Δ2/12
で定義されるyをxに対し、聴取者に主観的に重要でない量だけ変化させるものとする必要がある。Δ=2bは単位ステップサイズである。この場合、埋没チャンネルの伝送レートは再量子化処理の粗さに依存する。この点については、前記のGerzon等の引用文献の第2頁第40行〜第13頁の第5章に、得られる誤差が高レベルメイン音声信号によりマスクされるときは再量子化をもっと粗くすることがでる旨記載されている。他方、本願発明者は、埋没チャンネルの伝送レートを増大するもっと有効な方法、即ち人間の聴覚系の周波数依存感度を用いる方法を発見した。図2の構成の他の特徴は埋没チャンネル68により供給されるデータを一時的に記憶しうるバッファ50にある。出力端子66の埋没チャンネルの転送速度は不均一であるため、このバッファはその充填度をほぼ一定に維持するある種の帰還構成を有するものとすることができる。バッファが空になりすぎる場合には、埋没チャンネルの全容量を部分的に放棄することができる。バッファが満杯になりすぎる場合には、種々のストラテジィがあり、一つはチャンネル68からの送り速度を低減する。2以上の埋没サブチャンネルが存在する場合のもっと強烈なストラテジィは最も重要でないサブチャンネルを放棄する。サブチャンネルが動画ビデオを表す場合には、これを一時的に静止画の系列に減少させることができる。図2の構成の種々の変更が自明であり、例えば、所定の加算器を減算器に変更することができる。この場合には借りの伝搬を必要とするためハードウエアが僅かに複雑になる。しかし、特に所定のサンプル表記システムに対してはインパクトが最小になる。
この点に関し、図3に第1の典型的な音声スペクトルによりマスクされたしきい値の周波数依存特性を示す。図4はゼロ音声入力に基づく第1の典型的な埋没チャンネルの形成を示す。
図4において、標準化された、又は推定された人間の聴覚系において、曲線4は単一周波数に基づく可聴レベルを示す。計算上の理由から、曲線4はシミュレートされているが(その直線部分に注意)、これは自然現象に密接に追従する。約4000Hzでこのしきい値は最低であり、これにより高い周波数又は低い周波数で著しく高くなる。曲線1はフラットなCD雑音フロアを示し、このレベルは1010log(1/12×22050)dBで与えられる。曲線4は単一周波数に対する可聴しきい値を与えるが、雑音に対しては可聴作用はもっと高く、その周波数特性は曲線4より遙に低くなる。曲線2は曲線4のしきい値とほぼ同一の周波数依存性になるように整形した曲線1のフラット雑音のスペクトルである。正確な近似からの数dBの偏差も、約15kHz以上の平坦形状も、総合特性に悪影響を及ぼさないことが実験的に確かめられた。曲線3は曲線2に一致するが、b×6dBの距離だけ上方に相対的にシフトされ、図4ではb=2である。このことは埋没チャンネルが2ビット/サンプルの幅であることを意味する。曲線3と曲線4との距離は付加された情報を聞こえないままに維持する。曲線1と4との最小距離は1010log(660)であり、約4kHzの臨界帯域幅に対応する。設計は、曲線3のスペクトルの積分パワーを示す補助曲線を用い、この曲線が曲線4に接触しないように行うのが好ましい。図を簡単にするためこの補助曲線は図示してない。
図3は実際の音声スペクトルが可聴しきい値の形状に及ぼす影響を示す。曲線Aは実際の音声スペクトルである。曲線Bは単音に対する可聴しきい値を示す。図4の曲線4は山−谷特性が消去されていること明らかである。
図5は第2の典型的な埋没チャンネルの形成を示す。本例では、図3の曲線Aと異なる形状のシミュレート音声スペクトルによって、40dBの近似レベルに位置するとともに13kHzの位置に約10dBの浅いへこみを有するマスクされた音声しきい値を発生する。明瞭のために、音声自体のスペクトルは示してない。図3から明らかなように、各スペクトルピークはマスクされたしきい値を臨界周波数程度の周波数幅に亘って上昇し、一般にしきい値の滑らかな外観を生ずる。ここでも、16kHz以上の高周波数範囲の影響は無視されている。曲線1は図4のものと同一である。曲線2は曲線4のマスクされたしきい値とほぼ同一の形状になるように整形されたフラット雑音のスペクトルであり、本例では、曲線2の全体的な形状は図4のものより遙に平坦である。曲線3は曲線2に一致するが、b×6dBの距離だけ上方に相対的にシフトされ、図5ではb=6である。これは埋没チャンネルが6ビット/サンプルの幅であることを意味する。更に、音声スペクトルの形状は多くの場合に重要である。図4の曲線2の形状を図5に適用すると、改善は図5の場合より小さくなる。これらの図のアプローチは全周波数スペクトルに基づいている。所定のオーディオシステムでは、スペクトルがサブバンドに分配され、それぞれのサブバンドが互いにほぼ無関係のオーディオ信号を搬送する。このような状態では、本発明の方法及び装置を任意のサブバンド又はサブバンドの組み合わせに別々に適用するすることができる。この場合、構成が幾分複雑になるが、埋没チャンネルのデータ伝送レートが更に上昇する。
マスクされた目標レベルからのノイズウェイティングフィルタ及びノイズシェイピングフィルタの計算
以下に、図2のフィルタ64のための複合フィルタ曲線を計算する好適実施例を示す。この分野の関連する刊行物は、E.Ordentlich及びY.Shoham,"Low-delay code-excited linear-predictive coding of wideband speech at 32 kbps", Proc.ICASSP-91, pp.9-12, Toronto,1991である。これに示された技術はMPE,RPE及びCELPのような種々の分野の種々の用途に好適である。ここで、駆動系列(MPE,RPE)又は駆動ベクトル(CELP=codebook excited linear prediction)は加重平均二乗誤差基準に基づいて選択される。
このようなコーダでは、短い出力系列が多数の駆動系列又はベクトルから発生される。発生された出力系列は原入力系列と比較される。比較の基準は加重平均二乗誤差である。これは、入力と発生された出力との差をノイズウェイティングフィルタに通すことを意味する。次に、フィルタ処理された差系列のパワーを推定する。このパワーを加重平均二乗誤差という。最小の加重平均二乗誤差を発生する駆動系列を選択する。
図6はウェイティングフィルタがCELPコーダにどのように使用されるかを示す。LPC分析ボックスが入音声信号x[i]から予測係数a1,...,ap、ウェイティングフィルタの係数及び利得を計算する。コードブックは多数の駆動ベクトルを含む。ベクトル長はNである。選択中に全てのベクトルに利得を乗算するとともに分析フィルタに通す。この結果[i]で示すN個のサンプルが生ずる。誤差系列はN個のサンプル[i]からN個の入力サンプルx[i]を減算することにより形成される。誤差系列はウェイティングフィルタに通す。加重誤差系列の短時間パワーである加重平均二乗誤差を計算する。選択ボックスは最低の加重平均二乗誤差を発生する符号ベクトルを選択する。利得、予測係数及び選択されたベクトルのインデックスをデコーダに伝送する。
この点に関し、駆動ベクトルは駆動系列とみなすことができるので、駆動系列表現のみを使用する。
慣用されているウェイティングフィルタは音声信号の予測係数(LPC係数)a1,...,apに基づくものである。このフィルタの可能な例は、
Figure 0003782103
である。係数p1及びp2は、LPC分析を系列の最初の3つの自己相関遅延に適用することにより得られる。係数δ、γ1及びγ2はホルマントの位置における加重の大きさを制御する係数である。これらの係数は良好な知覚性能が得られるように調整される。有利な値は、
δ=0.7、γ1=0.95、γ2=0.8
である。
他の類似の例も同様に有用である。適切なコードブックに対し、符号化誤差のパワースペクトル密度関数は、
Figure 0003782103
に比例する。
ノイズシェイパ
ノイズシェイパの機能は量子化雑音にスペクトル整形を与えることにある。図7はノイズシェイパの基本図を示す。デコーディング後の量子化雑音のパワースペクトル密度関数は、
Figure 0003782103
により与えられる。ここで、Δは量子化ステップサイズである。音声の線形予測符号化に慣用されているフィルタF(z)は、
Figure 0003782103
である(ここで、γ<1)。この場合、量子化雑音のパワースペクトル密度関数は、
Figure 0003782103
で与えられる。
ウェイティングフィルタ及びノイズシェイパのねらいは、符号化誤差を歪みが知覚的に最低の妨害になるようにスペクトル整形することにある。音楽符号化においては、幾つかの方法で種々の周波数帯域内の量子化雑音のマスキングレベルを推定する。このレベルはマスクされた目標レベルという。これらの方法の目的も知覚的に最小の妨害を生ずる歪みを得ることにある。しかし、これらの方法は(1)のウェイティングフィルタ又は(4)のノイズシェイパより良好な精神音響学的基礎を有し、従ってマスクされた雑音のパワースペクトル密度関数の一層良好な近似を生ずる。
以下においてウェイティングフィルタ技術又はノイズシェピング技術をマスクされた目標レベルの計算と組み合わせる。このようにして得られたウェイティングフィルタ又はノイズシェイパは、それらの伝達関数がマスクされた雑音のスペクトル形状に一層良好に対応するため、既知のものより良好である。
目標レベル及び周波数帯域
一組の目標レベルt1,..,tmが、例えば図3、4、5につき述べた測定法により予め計算されているものとする。これらの目標レベルは種々の周波数帯域内のマスキングしきい値における雑音パワーを示す。これらの周波数帯域は互いに隣接するとともに零からサンプリング周波数の1/2までの範囲をカバーする必要がある。このため、正規化周波数θ:
−π≦θ≦π
を使用する。対応する音声正規化周波数fは、
f=(θ/2π)fs
になり、ここでfsはサンプリング周波数である。
帯域幅は任意に選択することができる。実際上、臨界的帯域又は等間隔帯域を使用する。マスクされた目標レベルtkに対応する周波数帯域の下端、上端及び中心周波数をそれぞれθk 1、θk u及びθk cで示す。
パワースペクトル密度の再構成
なめらかなパワースペクトル密度関数(psd):S(exp(jθ))は、psd−再構成関数Sk(θ)をk番周波数帯域と関連させることにより、マスクされた目標レベルから導くことができる。この場合、psdは、
Figure 0003782103
となる。psd−再構成関数には幾つかの制約がある。第1に、psdは非負でなければならない。これは、
Figure 0003782103
であることを意味する。第2に、パワー保存、即ち
Figure 0003782103
が必要とされる場合には、
Figure 0003782103
である。
psd−再構成関数:
Figure 0003782103
を選択することにより、psdの段階的近似が得られる。ここで、Δk=θk u−θk 1。段階的近似はなめらかなpsdを生じない。このため、raised-cosine psd−再構成関数のほうが好適である。この関数は、
Figure 0003782103
により与えられる。
図8はこのような基本フィルタ曲線を示す。raised-cosine psd−再構成関数も制限を有する。例えば、周波数帯域が均等に離間していない場合には、この関数は平坦なpsdを再構成することができない。これは異なる上側スロープ及び下側スロープを用いることにより改善することができる。psd−再構成関数の選択はマスクされた雑音の所望のスペクトル動作により決定する。
パワースペクトル密度の近似
再構成されたpsd S(exp(jθ))は全極型スペクトルで次のように近似される。
Figure 0003782103
ここで、qは全極型スペクトルの次数である。この近似は次式の伝達関数を有するウェイティングフィルタを生ずる。
Figure 0003782103
このウェイティングフィルタは、(1)のフィルタと異なり、FIRフィルタである。以下において、b1,..,bqをt1,..,tmから、
Figure 0003782103
をb1,..,bqの関数として最小にすることにより計算する。式(14)において、S(exp(jθ))は式(6)に従う。要するに、スペクトルS(θ)を近似する必要がある(ここで、θは正規化周波数である)。ここで、関数BはF(式23)の逆関数であり、Qは定数である。導関数:
Figure 0003782103
を計算し、これらの導関数を零にセットして次の一組の方程式:
Figure 0003782103
又は
Figure 0003782103
を導く。
Figure 0003782103
及び
Figure 0003782103
と定義する。gk,nはpsd−再構成関数から予め計算し、m×qマトリクスに記憶することができる。これらの結果を式(16)に代入して、次の一組の方程式:
Figure 0003782103
を得る。これは対称な正限定のToeplitz系であり、線形予測符号化から既知のYule-Walker方程式に一致する。q×q行列Rを
ij=Pi-j,,i,j=1,..,q
と定義し、q個のベクトルrを
i=pi,i=1,..,q
と定義する。その結果として、
Rb=−r (20)
になる。ここで、q個のベクトル(b)は係数b1,..,bqを含む。方程式群(19)又は(20)は既知のレビンソン−ダービンアルゴリズムにより容易に解くことができる。
k,n の例
S(exp(jθ))の段階的近似に対し、gk,nは、
Figure 0003782103
で与えられる。
S(exp(jθ))のraised-cosine近似に対し、gk,nは、
Figure 0003782103
で与えられる。
係数b1,..,bqは図7に示すようなウェイティングフィルタW(z)に直接供給することができる。この場合、W(z)=B(z)で、B(z)は式(13)で定義される。ノイズシェイパの場合には、F(z)は、
Figure 0003782103
となり、従って
Figure 0003782103
となる。

Claims (10)

  1. マルチビット入力サンプルのストリームとして受信される音声表現を符号化する方法において、
    前記入力サンプルの有限長系列を構成し、該系列内で瞬時不均一可聴しきい値対周波数特性を決定するステップと、
    前記入力サンプルから整形雑音信号を減算して処理サンプルを発生させるステップと、
    埋没チャネルビットとしてのディザ信号(v)を減算し次いで前記特性に関連するビットレベルより下位の可変数のbビットにより量子化することにより前記ビットレベルより下位の処理サンプルビットをダイナミックに無視するが、前記ビットレベルより上位の少なくとも全ての処理サンプルビットは保持するステップと、
    このように無視した処理サンプルビットを前記ディザ信号と置き換えることにより、1処理サンプルにつき調整数のbビットづつ埋没チャンネルビットを埋め込むステップと、
    無視されてない処理サンプルビットと埋没チャンネルビットを具えるアップグレードサンプル(y)を出力するステップとを具え、
    前記整形雑音信号は、前記アップグレードサンプルと前記処理サンプルとの間のディザ決定差に、ノイズシェイピングフィルタにより整形フィルタリングを施すことにより発生させ、この整形フィルタリングは受信差信号を前記瞬時しきい値対周波数特性に従って修正するものであることを特徴とする符号化方法。
  2. 前記ノイズシェイピングフィルタは白色雑音特性に近い差信号を受信することを特徴とする請求項1記載の方法。
  3. 前記整形雑音信号の発生は可変特性を有するノイズシェイピングフィルタにより行うことを特徴とする請求項1又は2記載の方法。
  4. 個々の時間インターバルにおいて音楽遷移部を検出し、この検出時に当該インターバルにおいてbの値を音楽遷移部のない隣接時間インターバルから少なくとも共通に決定される値にセットすることを特徴とする請求項1、2、又は3記載の方法。
  5. 前記置き換えステップ前に埋没チャンネルデータとして使用するデータをバッファ内で一時的にバッファし、時間変化レート制御により前記バッファの充填度を時間的に等しく維持することを特徴とする請求項1〜4のいずれかに記載の方法。
  6. 前記埋没チャンネルデータをMPEGオーディオチャンネルとして受信することを特徴とする請求項1〜5のいずれかに記載の方法。
  7. 前記整形フィルタリングは、それぞれ独自の格子周波数θkcを有するとともに総合スペクトルの局部的パワースペクトル密度を近似する幅Δkを有する一連の基本フィルタ曲線から合成された総合フィルタ曲線を有するフィルタで行うことを特徴とする請求項1〜6記載のいずれかに記載の方法。
  8. 前記格子周波数は不均一間隔を有することを特徴とする請求項1〜7のいずれかに記載の方法。
  9. 前記音声表現の周波数スペクトル内に共存する各別の周波数帯域ごとに符号化することを特徴とする請求項1〜8のいずれかに記載の方法。
  10. 請求項1〜9のいずれかに記載された方法を実行する符号化装置。
JP51787295A 1993-12-23 1994-12-13 アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。 Expired - Lifetime JP3782103B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP93203652 1993-12-23
EP93203652.8 1993-12-23
PCT/IB1994/000418 WO1995018523A1 (en) 1993-12-23 1994-12-13 Method and apparatus for encoding multibit coded digital sound through subtracting adaptive dither, inserting buried channel bits and filtering, and encoding and decoding apparatus for use with this method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006016429A Division JP2006139306A (ja) 1993-12-23 2006-01-25 アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置

Publications (2)

Publication Number Publication Date
JPH08507391A JPH08507391A (ja) 1996-08-06
JP3782103B2 true JP3782103B2 (ja) 2006-06-07

Family

ID=8214237

Family Applications (2)

Application Number Title Priority Date Filing Date
JP51787295A Expired - Lifetime JP3782103B2 (ja) 1993-12-23 1994-12-13 アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。
JP2006016429A Pending JP2006139306A (ja) 1993-12-23 2006-01-25 アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2006016429A Pending JP2006139306A (ja) 1993-12-23 2006-01-25 アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置

Country Status (6)

Country Link
US (1) US5649054A (ja)
EP (1) EP0691052B1 (ja)
JP (2) JP3782103B2 (ja)
KR (1) KR100518470B1 (ja)
DE (1) DE69431622T2 (ja)
WO (1) WO1995018523A1 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768426A (en) * 1993-11-18 1998-06-16 Digimarc Corporation Graphics processing system employing embedded code signals
US6983051B1 (en) * 1993-11-18 2006-01-03 Digimarc Corporation Methods for audio watermarking and decoding
US6408082B1 (en) 1996-04-25 2002-06-18 Digimarc Corporation Watermark detection using a fourier mellin transform
US6614914B1 (en) 1995-05-08 2003-09-02 Digimarc Corporation Watermark embedder and reader
US7171016B1 (en) 1993-11-18 2007-01-30 Digimarc Corporation Method for monitoring internet dissemination of image, video and/or audio files
US6122403A (en) 1995-07-27 2000-09-19 Digimarc Corporation Computer system linked by using information in data objects
US5748763A (en) 1993-11-18 1998-05-05 Digimarc Corporation Image steganography system featuring perceptually adaptive and globally scalable signal embedding
US6449377B1 (en) 1995-05-08 2002-09-10 Digimarc Corporation Methods and systems for watermark processing of line art images
US6424725B1 (en) 1996-05-16 2002-07-23 Digimarc Corporation Determining transformations of media signals with embedded code signals
US6944298B1 (en) 1993-11-18 2005-09-13 Digimare Corporation Steganographic encoding and decoding of auxiliary codes in media signals
US6757406B2 (en) 1993-11-18 2004-06-29 Digimarc Corporation Steganographic image processing
US6516079B1 (en) 2000-02-14 2003-02-04 Digimarc Corporation Digital watermark screening and detecting strategies
US6611607B1 (en) 1993-11-18 2003-08-26 Digimarc Corporation Integrating digital watermarks in multimedia content
US20030056103A1 (en) * 2000-12-18 2003-03-20 Levy Kenneth L. Audio/video commerce application architectural framework
US6307949B1 (en) 1996-05-07 2001-10-23 Digimarc Corporation Methods for optimizing watermark detection
US6381341B1 (en) 1996-05-16 2002-04-30 Digimarc Corporation Watermark encoding method exploiting biases inherent in original signal
KR100573627B1 (ko) 1997-01-27 2006-11-10 코닌클리케 필립스 일렉트로닉스 엔.브이. 기록된신호의복사방지용시스템
US6012031A (en) * 1997-09-24 2000-01-04 Sony Corporation Variable-length moving-average filter
JP3022462B2 (ja) * 1998-01-13 2000-03-21 興和株式会社 振動波の符号化方法及び復号化方法
US6792542B1 (en) 1998-05-12 2004-09-14 Verance Corporation Digital system for embedding a pseudo-randomly modulated auxiliary data sequence in digital samples
US6442283B1 (en) 1999-01-11 2002-08-27 Digimarc Corporation Multimedia data embedding
US6233552B1 (en) 1999-03-12 2001-05-15 Comsat Corporation Adaptive post-filtering technique based on the Modified Yule-Walker filter
AUPQ122699A0 (en) * 1999-06-25 1999-07-22 Lake Dsp Pty Limited Sigma delta modulator with buried data
US7136346B1 (en) * 1999-07-20 2006-11-14 Koninklijke Philips Electronic, N.V. Record carrier method and apparatus having separate formats for a stereo signal and a data signal
EP1228506B1 (en) * 1999-10-30 2006-08-16 STMicroelectronics Asia Pacific Pte Ltd. Method of encoding an audio signal using a quality value for bit allocation
EP1157382A1 (en) * 1999-12-21 2001-11-28 Koninklijke Philips Electronics N.V. Embedding a first digital information signal into a second digital information signal for transmission via a transmission medium
US7043312B1 (en) * 2000-02-17 2006-05-09 Sonic Solutions CD playback augmentation for higher resolution and multi-channel sound
WO2001061688A1 (en) * 2000-02-18 2001-08-23 Intervideo, Inc. Linking internet documents with compressed audio files
JP2002076898A (ja) * 2000-08-25 2002-03-15 Nippon Precision Circuits Inc ノイズシェーパ
US6674876B1 (en) * 2000-09-14 2004-01-06 Digimarc Corporation Watermarking in the time-frequency domain
CN1258916C (zh) * 2000-09-20 2006-06-07 皇家菲利浦电子有限公司 分配内容的方法及其装置
US20020060605A1 (en) * 2000-09-22 2002-05-23 Kowkutla Venkateswar R. Amplifiers
US7376242B2 (en) * 2001-03-22 2008-05-20 Digimarc Corporation Quantization-based data embedding in mapped data
US8050452B2 (en) * 2001-03-22 2011-11-01 Digimarc Corporation Quantization-based data embedding in mapped data
JP2002311975A (ja) * 2001-04-16 2002-10-25 Sony Corp 記録方法、記録装置、再生方法及び再生装置
US7006662B2 (en) * 2001-12-13 2006-02-28 Digimarc Corporation Reversible watermarking using expansion, rate control and iterative embedding
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
US7590251B2 (en) * 2003-03-21 2009-09-15 D2Audio Corporation Clip detection in PWM amplifier
US20060198557A1 (en) * 2003-04-08 2006-09-07 Van De Kerkhof Leon M Fragile audio watermark related to a buried data channel
US7929718B1 (en) 2003-05-12 2011-04-19 D2Audio Corporation Systems and methods for switching and mixing signals in a multi-channel amplifier
US7460684B2 (en) 2003-06-13 2008-12-02 Nielsen Media Research, Inc. Method and apparatus for embedding watermarks
CN1954362B (zh) * 2004-05-19 2011-02-02 松下电器产业株式会社 音频信号编码装置及音频信号解码装置
EP1779297A4 (en) 2004-07-02 2010-07-28 Nielsen Media Res Inc METHODS AND APPARATUS FOR MIXING COMPRESSED DIGITAL BINARY STREAMS
US7315264B2 (en) * 2006-01-17 2008-01-01 D2Audio Corporation Systems and methods for controlling transient response in the output of a noise shaper
WO2008045950A2 (en) 2006-10-11 2008-04-17 Nielsen Media Research, Inc. Methods and apparatus for embedding codes in compressed audio data streams
US20080167879A1 (en) * 2006-10-16 2008-07-10 Du Bois Denis D Speech delimiting processing system and method
US8054969B2 (en) 2007-02-15 2011-11-08 Avaya Inc. Transmission of a digital message interspersed throughout a compressed information signal
KR20100098654A (ko) 2007-12-31 2010-09-08 인터실 아메리카스 인코포레이티드 개선된 과전류 클리핑 시스템 및 방법
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466675B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
US8494180B2 (en) * 2010-01-08 2013-07-23 Intersil Americas Inc. Systems and methods to reduce idle channel current and noise floor in a PWM amplifier
JP5712293B2 (ja) * 2010-08-25 2015-05-07 インディアン インスティテュート オブ サイエンスIndian Institute Of Science 不均一な間隔の周波数での有限長シーケンスのスペクトルサンプルの決定
WO2014141413A1 (ja) * 2013-03-13 2014-09-18 株式会社東芝 情報処理装置、出力方法およびプログラム
GB2524784B (en) 2014-04-02 2018-01-03 Law Malcolm Transparent lossless audio watermarking

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
WO1992022060A1 (en) * 1991-05-29 1992-12-10 Pacific Microsonics, Inc. Improved signal encode/decode system
KR100268623B1 (ko) * 1991-06-28 2000-10-16 이데이 노부유끼 압축 데이타 기록 재생 장치 및 신호 처리 방법
FI89439C (fi) * 1991-10-30 1993-09-27 Salon Televisiotehdas Oy Foerfarande foer att dekoda en audiosignal i vilken annan information aer infoerd med anvaendning av maskningseffekt
GB9216659D0 (en) * 1992-08-05 1992-09-16 Gerzon Michael A Subtractively dithered digital waveform coding system
GB9302982D0 (en) * 1993-02-15 1993-03-31 Gerzon Michael A Data transmission method in digital waveform signal words
JP3396512B2 (ja) * 1993-08-31 2003-04-14 パイオニア株式会社 ディザ生成装置

Also Published As

Publication number Publication date
JPH08507391A (ja) 1996-08-06
US5649054A (en) 1997-07-15
DE69431622T2 (de) 2003-06-26
EP0691052A1 (en) 1996-01-10
EP0691052B1 (en) 2002-10-30
DE69431622D1 (de) 2002-12-05
KR960701518A (ko) 1996-02-24
JP2006139306A (ja) 2006-06-01
WO1995018523A1 (en) 1995-07-06
KR100518470B1 (ko) 2005-12-27

Similar Documents

Publication Publication Date Title
JP3782103B2 (ja) アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。
KR101345695B1 (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
CN100559465C (zh) 保真度优化的可变帧长编码
RU2388068C2 (ru) Временное и пространственное генерирование многоканальных аудиосигналов
JP6184519B2 (ja) 音声信号復号化または符号化の時間領域レベル調整
US6681204B2 (en) Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US20100040135A1 (en) Apparatus for processing mix signal and method thereof
JP6133422B2 (ja) マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
JPH07199993A (ja) 音響信号の知覚符号化
JP2002533963A (ja) 符号化通信信号の性能改良のための符号化された改良特性
MX2008014222A (es) Codificacion de señal de informacion.
MXPA96004161A (en) Quantification of speech signals using human auiditive models in predict encoding systems
CN1918630B (zh) 量化信息信号的方法和设备
CN109712633A (zh) 音频编码器和解码器
JPH06222798A (ja) 音声信号を効率的に符号化するための方法及びこの方法を用いる符号器
JP5323295B2 (ja) マスク済み閾値表現方法、再構成方法、及びそのシステム
US7725324B2 (en) Constrained filter encoding of polyphonic signals
JPH09152896A (ja) 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
Mehrotra et al. Hybrid low bitrate audio coding using adaptive gain shape vector quantization
Yu et al. A warped linear-prediction-based subband audio coding algorithm
Holters et al. Delay-free lossy audio coding using shelving pre-and post-filters
EP1639580B1 (en) Coding of multi-channel signals
WO2009136872A1 (en) Method and device for encoding an audio signal, method and device for generating encoded audio data and method and device for determining a bit-rate of an encoded audio signal

Legal Events

Date Code Title Description
A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20031119

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040217

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040518

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20051125

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20051207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060125

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060309

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090317

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120317

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130317

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130317

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140317

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term