JP5555707B2 - マルチ分解能切替型のオーディオ符号化及び復号化スキーム - Google Patents

マルチ分解能切替型のオーディオ符号化及び復号化スキーム Download PDF

Info

Publication number
JP5555707B2
JP5555707B2 JP2011530415A JP2011530415A JP5555707B2 JP 5555707 B2 JP5555707 B2 JP 5555707B2 JP 2011530415 A JP2011530415 A JP 2011530415A JP 2011530415 A JP2011530415 A JP 2011530415A JP 5555707 B2 JP5555707 B2 JP 5555707B2
Authority
JP
Japan
Prior art keywords
signal
audio
domain
time
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011530415A
Other languages
English (en)
Other versions
JP2012505423A (ja
Inventor
マックス ノイエンドルフ
ステファン バイエル
ジェレミー レコンテ
ギローム フッハス
ジュリアン ロビラード
ニコラス レッテルバッハ
フレデリック ナーゲル
ラルフ ガイガー
マルクス ムルトラス
ベルンハルト グリル
フィリッペ グールネイ
レドワン サラミ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP09002271A external-priority patent/EP2144230A1/en
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン, ヴォイスエイジ・コーポレーション filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2012505423A publication Critical patent/JP2012505423A/ja
Application granted granted Critical
Publication of JP5555707B2 publication Critical patent/JP5555707B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ符号化に関し、特に低ビットレートでのオーディオ符号化スキームに関する。
当該分野では、MP3やAAC(高効率オーディオ圧縮符号化)のような周波数ドメインの符号化スキームが公知である。これら周波数ドメインの符号器は、時間ドメイン/周波数ドメインの変換を基礎とし、その次に、聴覚心理モジュールからの情報を用いて量子化誤差を制御する量子化ステージと、量子化されたスペクトル係数及び対応するサイド情報を符号テーブルを用いてエントロピー符号化する符号化ステージとを有する。
一方、非特許文献1の中で記述されているAMR−WB+(適応型マルチレート・広帯域)のように、スピーチ処理に非常に適合する符号器も存在する。このようなスピーチ符号化スキームは、時間ドメイン信号のLP(線形予測)濾波を実行する。このLP濾波は、入力された時間ドメイン信号の線形予測分析から導出される。結果として得られるLPフィルタ係数は、次に量子化/符号化され、サイド情報として伝送される。このプロセスは、線形予測符号化(LPC)として知られる。フィルタの出力では、励振信号として知られる予測残余信号又は予測誤差信号は、ACELP(代数符号励振線形予測)のAbS(合成による分析)ステージを用いて符号化されるか、その代わりに、オーバーラップを伴うフーリエ変換を使用する変換符号器を用いて符号化される。ACELP符号化と、TCX(変換符号化済励振)符号化とも呼ばれる変換符号化された励振符号化との間の切替は、閉ループ又は開ループのアルゴリズムを用いて実行される。
AAC符号化スキームとスペクトル帯域複製(SBR)の技術とを組み合わせた高効率AAC(HE−ACC)符号化スキーム等の周波数ドメイン・オーディオ符号化スキームは、「MPEGサラウンド」として知られるジョイントステレオや多チャネル符号化ツールとも組み合わせることができる。
他方、AMR−WB+等のようなスピーチ符号器もまた、高周波拡張ステージ及びステレオ機能を備えている。
周波数ドメイン符号化スキームは、音楽信号を低ビットレートで高品質に符号化できるという点で有利である。しかし他方、低ビットレートにおけるスピーチの品質が問題となる。
スピーチ符号化スキームは、スピーチ信号に対しては低ビットレートでも高品質を達成できるが、他方、音楽信号に対しては低ビットレートでは低品質しか達成できない。
3GPP TS 26.290 3GPP TS 26.190 "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol. 82, No. 10, October 1994, pages 1541-1582 ISO/IEC 14496-3, subpart 4.1.1.2. ISO/IEC 14496-3, subpart 4, subclause 4.5.2.3.4 Table 4.110 to Table 4.128, in ISO/IEC 14496-3, subpart 4, section 4.5.4 3GPP TS 26.290 V6.3.0, Extended Adaptive Multi-Rate _ Wideband (AMR-WB+) codec; Transcoding functions ISO/IEC 14496-3, subpart 4, section 4.5.4 Table 4.129 to Table 4.147 ISO/IEC 14496-3:2005, Information technology _ Coding of audio-visual objects _ Part 1: Systems ISO/IEC 11172-3:1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s, Part 3: Audio. ITU-T Rec.H.222.0(1995) | ISO/IEC 13818-1:2000, Information technology - Generic coding of moving pictures and associated audio information: _ Part 1: Systems. ISO/IEC 13818-3:1998, Information technology - Generic coding of moving pictures and associated audio information: - Part 3: Audio. ISO/IEC 13818-7:2004, Information technology - Generic coding of moving pictures and associated audio information: - Part 7: Advanced Audio Coding (AAC). ISO/IEC 14496-3:2005, Information technology _ Coding of audio-visual objects _ Part 3: Audio ISO/IEC 23003-1:2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround 3GPP TS 26.290 V6.3.0, Extended Adaptive Multi-Rate _ Wideband (AMR-WB+) codec; Transcoding functions 3GPP TS 26.190, Adaptive Multi-Rate _ Wideband (AMR-WB) speech codec; Transcoding functions 3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions ISO/IEC 14496-3, subpart 1, subclause 1.3 (Terms and definitions) 3GPP TS 26.290, section 3 (Definitions and abbreviations)
本発明の目的は、符号化及び復号化の改良された概念を提供することである。
本発明の目的は、請求項1に記載のオーディオ符号器、請求項9に記載のオーディオ符号化方法、請求項10に記載のオーディオ復号器、請求項19に記載のオーディオ復号化方法、請求項20に記載の符号化された信号、又は請求項21に記載のコンピュータプログラムにより達成される。
本発明は、ハイブリッドモード又はデュアルモードで切り替えられる符号化/復号化スキームが、ある信号特性に対して常に最適な符号化アルゴリズムを選択できるという点で有利である、という知見に基づいている。換言すれば、本発明は、全ての信号の特性に対して完全に適合する1つの信号符号化アルゴリズムを探しているわけではない。そのような全般型のスキームは、音楽オーディオ符号器を一方とし、スピーチ符号器を他方とする状態の相互間に大きな差異があることから分かるように、常にある妥協の産物となるであろう。代わりに、本発明は、スピーチ符号化アルゴリズムを一方とし、オーディオ符号化アルゴリズムを他方として、ある切替型のスキーム内で様々な符号化アルゴリズムを組み合わせるものであり、その結果、各オーディオ信号部分のために最も適合する符号化アルゴリズムが選択される。さらに、本発明のもう1つの特徴は、両方の符号化分枝が時間/周波数変換器を含み、片方の分枝がLPC処理器などの追加のドメイン変換器をも備えていることである。このドメイン変換器により、ある信号特性にとっては第1分枝よりも第2分枝の方がより適合することが確実となる。本発明の他の特徴として、このドメイン処理器により出力された信号がスペクトル表示へと変換されることも挙げられる。
両方の変換器、即ち第1符号化分枝の第1変換器と第2符号化分枝の第2変換器とは、マルチ分解能の変換符号化を適用する。そこでは、対応する変換器の分解能はオーディオ信号に依存するよう設定されており、特に、対応する符号化分枝内で実際に符号化されたオーディオ信号に依存する。その結果、品質を一方としビットレートを他方とする場合の良好な妥協点、又は、ある一定の品質を考慮した場合における最低のビットレート若しくは一定のビットレートを考慮した場合における最高の品質を取得することができる。
本発明に従えば、2つの変換器の時間/周波数分解能は、好適には互いに独立するよう設定されており、その結果、各時間/周波数変換器は対応する信号の時間/周波数分解能の要件に対して最適に適合することができる。ビット効率、即ち有用ビットとサイド情報ビットとの間の関係は、より長いブロックサイズ/ウインドウ長の方が高くなる。そのため、両方の変換器がより長いウインドウを偏重する方が好ましい。なぜなら、基本的に、同量のサイド情報は、短いブロックサイズ/ウインドウ長/変換長を適用する場合に比べ、オーディオ信号のより長い時間部分を反映するからである。好適には、符号化分枝内の時間/周波数分解能は、これらの分枝内に位置する他の符号化/復号化ツールからの影響を受けても良い。好適には、LPC処理器などのドメイン変換器を含む第2符号化分枝は、ACELP分枝を一方としTCXスキームを他方とする、もう一つのハイブリッドスキームを含み、そこでは第2変換器はTCXスキーム内に含まれる。好適には、TCX分枝に位置する時間/周波数分解能変換器は符号化の判定からも影響を受け、その結果、第2符号化分枝内の信号の1つの部分は、第2変換器を持つTCX分枝内で処理されるか、又は時間/周波数変換器を持たないACELP分枝内で処理される。
基本的に、ドメイン変換器も第2符号化分枝も、特に、第2符号化分枝内の第1処理分枝及び第2符号化分枝内の第2処理分枝も、スピーチに関連した要素である必要はない。このスピーチに関連した要素とは、ドメイン変換器としてのLPC分析器や、第2処理分枝としてのTCX符号器や、第1処理分枝としてのACELP符号器などである。スピーチを一方とし音楽を他方とするようなオーディオ信号特性とは異なる、他の信号特性が評価されるときには、他のアプリケーションもまた有用である。任意のドメイン変換器や符号化分枝の構成も使用でき、最適なアルゴリズムは、「合成による分析」のスキームにより発見できる。その結果、符号器側では、オーディオ信号の各部分について符号化の選択肢全てが実行され、最適な結果が選択される。このとき、最適な結果とは、符号化の結果に対してある目標関数を適用することで発見されても良い。次に、符号化されたオーディオ信号の所定の部分の根底にある符号化アルゴリズムを復号器に対して指示するサイド情報が、符号器出力インターフェイスによって、その符号化されたオーディオ信号に添付される。その結果、復号器は、符号器側のどの判定又はどの信号特性に対しても注意を払う必要がなく、伝送されたサイド情報に基づいてその復号化分枝を単に選択する。さらに、復号器は、単に正しい復号化分枝を選択するだけでなく、符号化された信号内にある符号化されたサイド情報に基づき、対応する第1復号化分枝と対応する第2復号化分枝とにどの時間/周波数分解能を適用すべきか、を選択する。
従って、本発明は1つの符号化/復号化スキームを提供し、このスキームは全ての異なる符号化アルゴリズムの利点を結合し、これらの符号化アルゴリズムの欠点、即ち、所定の符号化アルゴリズムには適さないアルゴリズムによって信号部分を符号化せざるを得なかったときに発生するような欠点を防止する。さらに本発明は、異なる符号化分枝内の異なるオーディオ信号部分によって挙げられた異なる時間/周波数分解能の要件が考慮されなかった場合に、招来するであろうあらゆる欠点を回避できる。代わりに、両方の分枝における時間/周波数変換器の可変的な時間/周波数分解能のために、同じ時間/周波数分解能が両方の符号化分枝に適用された場合、又は1つの固定的な時間/周波数分解能だけがどちらの符号化分枝でも使用可能である場合において発生するであろう、あらゆるアーチファクトが少なくとも低減され、あるいは完全に防止される。
第2のスイッチも2つの処理分枝の間で切り替えを実行するが、しかし、「外側の」第1分枝のドメインとは異なるドメインにおいて実行する。「内側」の分枝の一方では、主としてソースモデルやSNR計算が使用され、「内側」の分枝の他方では、シンクモデル及び/又は聴覚心理モデル、即ちマスキングが使用されても良く、或いは、少なくとも周波数/スペクトルドメイン符号化の態様を含む。一例として、一方の「内側」分枝は周波数ドメイン符号器/スペクトル変換器を備え、他方の分枝は、LPCドメイン等の他のドメインで符号化を実行する符号器、例えばスペクトル変換なしで入力信号を処理するCELP(符号励振線形予測)やACELPの量子化器/スケーラを備える。
本発明の他の好適な実施例は、スペクトルドメイン符号化分枝のような情報シンク指向の第1符号化分枝と、LPCドメイン符号化分枝のような情報ソース又はSNR指向の第2符号化分枝と、これら第1符号化分枝と第2符号化分枝との間で切り替えを実行するスイッチと、を備えたオーディオ符号器である。この第2符号化分枝は、励振信号を生成するLPC分析ステージのような、時間ドメインとは異なる特定ドメインへの変換器を有し、さらに、この第2符号化分枝は、LPCドメイン処理分枝のような特定のドメインと、LPCスペクトルドメイン処理分枝のような特定のスペクトルドメインと、これら特定ドメイン処理分枝と特定スペクトルドメイン処理分枝との間で切り替えを実行する追加的なスイッチと、を備えている。
本発明の他の好適な実施例は、スペクトルドメインのような第1ドメインの復号化分枝と、励振信号等の信号をLPCドメインのような第2ドメインで復号化する復号化分枝と、励振信号等の信号をLPCスペクトルドメインのような第3ドメインで復号化する復号化分枝と、を備えたオーディオ復号器であり、この第3ドメインは第2ドメインからの周波数変換により取得される。このオーディオ復号器は、第2ドメイン信号と第3ドメイン信号との間を切り替える第1スイッチと、第1ドメインの復号器と第2ドメイン又は第3ドメインの復号化器との間を切り替える第2スイッチと、を含む。
次に、本発明の好適な実施の形態を、添付の図面を参照しながら説明する。
本発明の第1実施形態に係る符号化スキームのブロック図である。 本発明の第1実施形態に係る復号化スキームのブロック図である。 本発明の他の実施形態に係る符号化スキームのブロック図である。 本発明の第2実施形態に係る符号化スキームのブロック図である。 本発明の第2実施形態に係る復号化スキームの概要ブロック図である。 本発明の他の実施形態に係る符号化スキームのブロック図である。 本発明の他の実施形態に係る符号化スキームのブロック図である。 本発明の他の実施形態に係る復号化スキームのブロック図である。 縦列型スイッチを有する符号化装置/方法の概要図である。 縦列型結合器を使用する復号化装置又は方法の概要図である。 時間ドメイン信号と、符号化済信号の対応する表示とを示し、2つの符号化済信号に含まれた短いクロスフェード領域を示す図である。 符号化分枝の前にスイッチを配置したブロック図である。 符号化分枝の次にスイッチを配置した符号化スキームのブロック図である。 図5aは時間ドメインのスピーチ部分の波形を、準周期的又はインパルス状の信号部分として示す図であり、図5bは図5aの信号分節のスペクトルを示す図である。 図5cは無声音スピーチの時間ドメインスピーチ部分をノイズ状部分の一例として示す図であり、図5dは図5cの時間ドメイン波形のスペクトルを示す図である。 合成による分析CELP符号化手段のブロック図である。 スピーチ生成システムの線形モデルを示す図である。 スピーチ生成システムの全極フィルタモデルを示す図である。 有声音の励振信号をインパルス状の信号の一例として示す。 無声音の励振信号をインパルス状の信号の一例として示す。 短期間予測情報及び予測誤差(励振)信号を提供する符号器側のLPCステージを示す。 重み付き信号を生成するLPC装置のさらなる実施例を示す。 図2bの変換器537において必要な、逆重み付け操作と後続の励振分析との適用による、重み付き信号から励振信号への変換の構成を示す。 本発明のある実施形態に係るジョイント多チャネルアルゴリズムのブロック図である。 帯域拡張アルゴリズムの好適なある実施形態を示す。 開ループの切替判定を実行する場合のスイッチを詳細に示す。 閉ループの切替判定モードで操作する場合のスイッチを示す。 本発明の他の態様に従うオーディオ符号器のブロック図を示す。 本発明のオーディオ復号器の他の実施例のブロック図を示す。 本発明の符号器の他の実施例を示す。 本発明の復号器の他の実施例を示す。 分解能とウインドウ/変換長との間の相互関係を示す。 第1符号化分枝のための変換ウインドウのセットと、第1符号化分枝から第2符号化分枝への遷移を概略的に示す。 第1符号化分枝のためのウインドウシーケンスと第2符号化分枝への遷移のためのシーケンスとを含む、複数の異なるウインドウシーケンスを示す。 第2符号化分枝の好適な実施例のフレーミングを示す。 第2符号化分枝に適用された短いウインドウを示す。 第2符号化分枝に適用された中程度のサイズのウインドウを示す。 第2符号化分枝に適用された長いウインドウを示す。 1つのスーパーフレーム分割におけるACELPフレームとTCXフレームの例示的なシーケンスを示す。 第2符号化分枝のための様々な時間/周波数分解能に対応する様々な変換長を示す。 図14fの定義を使用したウインドウの構築を示す。
図11aはオーディオ信号を符号化するオーディオ符号器の一実施例を示す。この符号器は、第1符号化アルゴリズムを用いてオーディオ信号を符号化して第1符号化済信号を取得するための、第1符号化分枝400を含む。
オーディオ符号器はさらに、第2符号化アルゴリズムを用いてオーディオ信号を符号化して第2符号化済信号を取得するための、第2符号化分枝500を含む。第1符号化アルゴリズムは第2符号化アルゴリズムとは異なる。さらに、オーディオ信号の1つの部分について第1符号化済信号又は第2符号化済信号のいずれかが符号器出力信号801の中に存在するように、第1符号化分枝と第2符号化分枝との間を切り替えるためのスイッチ200が設けられている。
図11aに示すオーディオ符号器は、信号分析器300/525をさらに備え、この分析器はオーディオ信号の一部分を分析し、オーディオ信号のその部分が符号器出力信号801において第1符号化済信号として表現されるか、又は第2符号化済信号として表現されるかを決定する。
信号分析器300/525はさらに、第1符号化分枝400内の第1変換器410の時間/周波数分解能、又は第2符号化分枝500内の第2変換器523の時間/周波数分解能をそれぞれ可変的に決定する。オーディオ信号のある部分を表現する第1符号化済信号又は第2符号化済信号が生成されたとき、この時間/周波数分解能が適用される。
オーディオ符号器は、オーディオ信号の前記部分の符号化済表現と、そのオーディオ信号の表現が第1符号化済信号であるか第2符号化済信号であるかを示し且つその第1符号化済信号及び第2符号化済信号を復号化するために使用する時間/周波数分解能を示す情報と、を含む符号器出力信号801を生成するための、出力インターフェイス800をさらに備えている。
第2符号化分枝は、好適には以下の点において第1符号化分枝とは異なる。即ち、第2符号化分枝は、オーディオ信号が第1符号化分枝内で処理されるドメインからある別のドメインへとそのオーディオ信号を変換するためのドメイン変換器をさらに備えている。好適には、このドメイン変換器はLPC処理器510であるが、しかし、このドメイン変換器は、第1変換器410及び第2変換器523とから異なる限り、任意の方法で構成されても良い。
第1変換器410は時間/周波数変換器であり、好適にはウインドウ化手段410aと変換手段410bとを備える。ウインドウ化手段410aは、入力されたオーディオ信号に対して分析ウインドウを適用し、変換手段410bはそのウインドウ化された信号をスペクトル表示へと変換する。
同様に、第2変換器523は、好適にはウインドウ化手段523aとその次に接続された変換手段523bとを備える。ウインドウ化手段523aはドメイン変換器510から出力された信号を受け取り、そのウインドウ化された表現を出力する。ウインドウ化手段523aにより適用された1つの分析ウインドウの結果は、変換手段523bへと入力され、あるスペクトル表現を形成する。この変換手段はFFTでも良く、又は好適にはMDCT処理器でも良く、ソフトウエア内、ハードウエア内又はハードウエア/ソフトウエアが混合した構成内において、対応するアルゴリズムを実行する。代替的に、この変換手段は、プロトタイプフィルタの実数値又は複素の変調に基づく、例えばQMFフィルタバンクのようなフィルタバンク構成であっても良い。特定のフィルタバンク構成に対し、あるウインドウが適用される。しかし、他のフィルタバンク構成に対しては、FFT又はMDCTに基づく変換アルゴリズムのために必要とされるようなウインドウ処理は使用されない。もし、可変分解能フィルタバンクが使用された場合、そのフィルタバンクは周波数分解能を制御し且つ時間分解能をも制御するか、又は、周波数分解能だけを制御して時間分解能は制御しない。しかし、この変換器がFFT、MDCT又は他の対応する任意の変換器として構成された場合には、時間的に大きなブロック長により得られた周波数分解能の増大分が、低い時間分解能に自動的に対応し、その逆もまた真となるという方法で、周波数分解能と時間分解能とが関連付けられている。
さらに、第1符号化分枝は量子化器/符号器ステージ421を含んでも良く、第2符号化分枝も、1つ又は複数の追加的符号化ツール524を含んでも良い。
重要な点は、前記信号分析器が第1変換器410及び第2変換器523のための分解能制御信号を生成するという点である。それにより、一方では低いビットレートを提供し、他方ではその低いビットレートから見た最高品質を提供するような符号化のスキームを達成できるように、両方の符号化分枝において独立した分解能制御が実行される。低いビットレートという目的を達成するためには、長いウインドウ長又は長い変換長が好ましい。しかし、これら長いウインドウ長や長い変換長が、低い時間分解能に起因するアーチファクトを招く場合には、短いウインドウ長や短い変換長が適用され、それらは低い周波数分解能をもたらす。好適には、前記信号分析器は、符号化分枝内の対応するアルゴリズムに適したある統計的分析又は他の任意の分析を適用する。第1符号化分枝がAACベースの符号器などのような周波数ドメインの符号化分枝であり、第2符号化分枝がLPC処理器510をドメイン変換器として含む、ある実施モードにおいては、信号分析器がスピーチ/音楽の判別を実行し、その結果、オーディオ信号のスピーチ部分が第2符号化分枝へと送られるようにスイッチ200が制御される。オーディオ信号の音楽部分は、図中にスイッチ制御ラインで示すように、第1符号化分枝400へと伝送されるようにスイッチ200が制御される。代替的に、図1C又は図4Bに関して後述するように、このスイッチは出力インターフェイス800の前に配置されても良い。
さらに、前記信号分析器は、スイッチ200へと入力されたオーディオ信号を受け取ることができ、或いはこのスイッチ200により出力されたオーディオ信号を受け取ることができる。さらに、信号分析器は、前記オーディオ信号を対応する符号化分枝へと供給するためだけではなく、信号分析器と変換器とを接続している分解能制御ラインにより示されるように、対応する符号化分枝内の各変換器(第1変換器410と第2変換器523)の適切な時間/周波数分解能を決定するためにも、分析を実行する。
図11bは、図11aのオーディオ符号器に適合するオーディオ復号器の好適な実施例を示す。
図11bの復号器は、図11aの出力インターフェイス800により出力された符号器出力信号801のような、符号化されたオーディオ信号を復号化する。符号化された信号は、第1符号化アルゴリズムに従って符号化された第1符号化済オーディオ信号と、第1符号化アルゴリズムとは異なる第2符号化アルゴリズムに従って符号化された第2符号化済オーディオ信号と、第1符号化済信号及び第2符号化済信号を復号化するために、第1符号化アルゴリズム又は第2符号化アルゴリズムを使用するか否かを指示する情報と、第1符号化済オーディオ信号及び第2符号化済オーディオ信号のための時間/周波数分解能情報と、を含む。
オーディオ復号器は、第1符号化アルゴリズムに基づいて第1符号化済信号を復号化するための第1復号化分枝431,440を含む。さらに、オーディオ復号器は、第2符号化アルゴリズムを用いて第2符号化済信号を復号化するための第2復号化分枝を含む。
第1復号化分枝は、スペクトルドメインから時間ドメインへと変換するための制御可能な第1変換器440を備える。この制御可能な変換器は、第1符号化済信号からの時間/周波数分解能情報を使用して制御され、第1復号化済信号を取得する。
第2復号化分枝は、スペクトル表示から時間表示へと変換するための制御可能な第2変換器を備え、この制御可能な第2変換器534は第2符号化済信号のための時間/周波数分解能情報991を使用して制御される。
この復号器は、時間/周波数分解能情報991に従って第1変換器440と第2変換器534とを制御するための、制御手段990をさらに備える。
さらにこの復号器は、図11aの符号器内のドメイン変換器510によって適用されたドメイン変換をキャンセルするように、第2復号化済信号を使用して合成信号を生成するための、ドメイン変換器を備える。
好適には、このドメイン変換器540はLPC合成処理器であり、符号化済信号の中に含まれたLPCフィルタ情報を使用して制御される。このLPCフィルタ情報は図11a内のLPC処理器510によって生成されたものであり、符号器の出力信号の中にサイド情報として挿入されたものである。最後に、オーディオ復号器は結合器600を備え、第1ドメイン変換器440により出力された第1復号化済信号と、前記合成信号とを結合し、復号化されたオーディオ信号609を取得する。
この好適な実施例においては、第1復号化分枝は逆量子化/復号化ステージ431をさらに備え、このステージは、対応する符号化ステージ421によって実行された操作を逆戻しするか、又は少なくとも部分的に逆戻しする。しかし、量子化は損失が多い操作であるため、量子化を逆戻しできないことは明らかである。とはいえ、逆量子化器は、対数(logarithmic)又は圧伸(companding)量子化のような量子化における所定の不均一性を逆戻しする。
第2復号化分枝においては、ステージ524により適用された所定の符号化操作をもとに戻すための対応するステージ533が適用される。好適には、ステージ524は均一な量子化を含む。そして、対応するステージ533は、所定の均一な量子化をもとに戻すための特定の逆量子化ステージを持たないであろう。
第1変換器440及び第2変換器534は、それぞれ逆変換手段ステージ440a,534aと、合成ウインドウステージ440b,534bと、次に接続されたオーバーラップ/加算ステージ440c,534cとを備える。変換器、詳しくは変換手段ステージ440a,534aが、変形離散コサイン変換などのエイリアシングを導入する変換を適用した場合には、オーバーラップ/加算ステージが必要となる。次に、オーバーラップ/加算操作は、時間ドメインのエイリアシング・キャンセル操作(TDAC)を実行する。しかし、変換手段が、逆FFTなどのエイリアシングを導入しない変換を適用した場合には、オーバーラップ/加算ステージ440cは不要となる。そのような構成においては、ブロッキングアーチファクトを防止するためのクロスフェーディング操作が適用されても良い。
同様に、結合器600は、切替型の結合器若しくはクロスフェード型の結合器であっても良く、又は、ブロッキングアーチファクトを防止するためにエイリアシングが使用された場合には、その分枝そのものの中にあるオーバーラップ/加算ステージと同様に、遷移(transition)ウインドウ処理操作が結合器によって実行される。
図1aは、2つの縦列型スイッチを有する本発明の一実施例を示す。モノラル信号、ステレオ信号若しくは多チャネル信号が、スイッチ200へと入力される。スイッチ200は判定ステージ300により制御される。ブロック200へと入力される信号は、判定ステージにも入力として受け取られる。代替的に、判定ステージ300は、上記モノラル信号、ステレオ信号若しくは多チャネル信号の中に含まれたサイド情報を受け取っても良く、又は、例えば上記モノラル信号、ステレオ信号若しくは多チャネル信号を元々製造した時に生成された信号であって情報が存在する信号に対して、少なくとも関連付けられたサイド情報を受け取っても良い。
判定ステージ300はスイッチ200を活性化して、図1aの上側の分枝で示す周波数符号化部分400か、又は図1aの下側の分枝で示すLPCドメイン符号化部分500かのいずれかに対して信号を送る。周波数ドメイン符号化分枝の鍵となる要素は、(後述するような)共通前処理ステージの出力信号をスペクトルドメインへと変換する、スペクトル変換ブロック410である。このスペクトル変換ブロックは、MDCTアルゴリズム、QMF、FFTアルゴリズム、ウェーブレット分析などを含んでも良く、又は、所定個数のフィルタバンクチャネルを備え、このフィルタバンク内のサブバンド信号が実数値信号或いは複素値信号でも良い、臨界的にサンプリングされたフィルタバンクを含んでも良い。このスペクトル変換ブロック410の出力は、スペクトルオーディオ符号器421を用いて符号化され、この符号器はAAC符号化のスキームから知られる処理ブロックを含んでもいても良い。
一般的に、分枝400内の処理は知覚ベースモデル又は情報シンクモデルにおける処理である。従って、この分枝は音を受け取る人間の聴覚システムをモデル化したものである。対照的に、分枝500内の処理は、励振、残余又はLPCドメインにおいて信号を生成するためのものである。一般的に、この分枝500の処理はスピーチモデル又は情報生成モデルにおける処理である。スピーチ信号に対しては、このモデルは音を生成する人間のスピーチ/音生成システムのモデルである。しかし、もし異なる音生成モデルを必要とする異なるソースからの音を符号化すべき場合には、分枝500における処理も異なっていても良い。
下方の符号化分枝500において、鍵となる要素はLPC装置510であり、この装置510はLPCフィルタの特性を制御するために使用されるLPC情報を出力する。このLPC情報は復号器に伝達される。LPCステージ510の出力信号は、励振信号及び/又は重み付き信号からなるLPCドメイン信号である。
LPC装置は一般的にLPCドメイン信号を出力し、この信号は、図7eの励振信号や図7fの重み付き信号、又は他の信号等、LPCドメイン内のいかなる信号であっても良く、これらの信号はLPCフィルタ係数をオーディオ信号へと適用することで生成されたものである。LPC装置は、これらの係数を決定することができ、これらの係数を量子化/符号化することもできる。
判定ステージ300における判定は信号適応型であっても良く、判定ステージは音楽/スピーチ判別を実行し、音楽信号は上方の分枝400へと入力され、スピーチ信号は下方の分枝500へと入力されるようにスイッチ200を制御する。一実施例においては、判定ステージはその判定情報を出力ビットストリームへと提供し、その結果、復号器はこの判定情報を使用して正確な復号操作が実行可能になる。
図1bはこのような復号器を示す。スペクトルオーディオ符号化手段421から出力された信号は、伝送後、スペクトルオーディオ復号器431へと入力される。スペクトルオーディオ復号器431の出力は、時間ドメインの変換器440へと入力される。同様に、図1aのLPCドメイン符号化分枝500の出力は、復号器側で受信され、要素531,533,534,532によって処理され、LPC励振信号が取得される。LPC励振信号はLPC合成ステージ540に入力され、この合成ステージは、さらなる入力として、対応するLPC分析ステージ510により生成されたLPC情報を受け取る。時間ドメインの変換器440の出力及び/又はLPC合成ステージ540の出力は、スイッチ600へと入力される。このスイッチ600はスイッチ制御信号を介して制御されるが、スイッチ制御信号は、例えば判定ステージ300により生成されたか、又は、オリジナルのモノラル信号、ステレオ信号若しくは多チャネル信号の作成者等により外部的に提供されたものである。スイッチ600の出力は、完全なモノラル信号、ステレオ信号又は多チャネル信号である。
スイッチ200と判定ステージ300への入力は、モノラル信号、ステレオ信号、多チャネル信号などの一般的なオーディオ信号で良い。スイッチ200の入力信号、又はスイッチ200の入力信号の根底にあるオリジナルオーディオ信号の作成者等の外部的なソース、から導出される判定に従い、スイッチは周波数符号化分枝400とLPC符号化分枝500との間で切替を実行する。周波数符号化分枝400は、スペクトル変換ステージ410と、後続の量子化/符号化ステージ421とを有する。量子化/符号化ステージは、AAC符号化手段のような現代の周波数ドメイン符号化手段では公知であるいかなる機能を含んでも良い。さらに、量子化/符号化ステージ421内の量子化操作は、周波数に係る聴覚心理マスキング閾値等の聴覚心理情報を生成する聴覚心理モジュールを介して制御されても良く、この場合、その情報はステージ421へと入力される。
LPC符号化分枝500では、スイッチからの出力信号は、LPCサイド情報及びLPCドメイン信号を生成するLPC分析ステージ510を介して処理される。本発明の励振符号器は、次に、LPCドメイン信号を量子化/符号化ステージ522においてLPCドメインで処理するか、或いは量子化/符号化ステージ524においてLPCスペクトルドメインで処理するか、の間で切替を実行する追加的なスイッチ521を有する。このLPCスペクトルドメイン処理のために、スペクトル変換器523が量子化/符号化ステージ524の入力側に設けられる。スイッチ521は、例えばAMR−WB+の技術仕様書に記載されたような特定の設定に依存して、開ループ状態又は閉ループ状態で制御される。
閉ループの制御モードのために、本発明の符号器は、LPCドメイン信号のための逆の量子化/符号化器531と、LPCスペクトルドメイン信号のための逆の量子化/符号化器533と、この逆の量子化/符号化器533の出力を受け入れる逆スペクトル変換器534と、をさらに備える。第2符号化分枝の2つの処理分枝内にある符号化され再度逆符号化された両方の信号は、スイッチ制御装置525へと入力される。スイッチ制御装置525内では、これら2つの出力信号は互いに比較され、及び/又は目標関数と比較される。目標関数は両方の信号内の歪の比較に基づいて計算されても良く、その結果、スイッチ521の切替位置は、より低い歪を有する信号を使用して決定される。代替的に、両方の分枝が一定でないビットレートを提供する場合には、より低いビットレートを提供する分枝の方を、たとえその分枝の信号対雑音比が他の分枝の信号対雑音比よりも低い場合であっても、選択しても良い。代替的に、目標関数は、各信号の信号対雑音比と各信号のビットレート及び/又は追加的な基準を入力として使用し、特定の目的のための最良の判定を見つけるようにしても良い。もし、例えばこの目的が「ビットレートをできる限り低くすること」であれば、目標関数は、要素531と534から出力される2つの信号のビットレートに大きく依存することになるであろう。しかし、主目的が「所定のビットレートで最高品質を有すること」であれば、スイッチ制御装置525は、例えば許容ビットレートを超える各信号を捨て去り、もし両方の信号が許容ビットレート以下であれば、スイッチ制御装置は、より良好な信号対雑音比を有する信号、即ちより小さい量子化/符号化歪を有する信号を選択するであろう。
上述したように、本発明に従う復号化のスキームを図1bに示す。上述の発生可能な3種類の各出力信号のために、特別な復号化/逆量子化ステージ431,531,533が存在する。ステージ431は時間スペクトル(周波数ドメイン信号)を出力し、周波数/時間変換器440を使用して時間ドメインへと変換される一方で、ステージ531はLPCドメイン信号を出力し、装置533はLPCスペクトルを出力する。スイッチ532への入力信号の両方がLPCドメインであることを確保するため、LPCスペクトル/LPC変換器534が設けられている。スイッチ532の出力データは、LPC合成ステージ540を用いて時間ドメインへと逆変換され、この合成ステージは、符号器側で生成され伝送されたLPC情報を介して制御されている。ブロック540の後では両方の分枝が時間ドメイン情報を備えており、スイッチ制御信号に従って切替が実行され、最終的には、図1aに記載の符号化スキームに入力された信号に依存してモノラル信号、ステレオ信号又は多チャネル信号等のオーディオ信号が取得される。
図1cは、図4bの原理に近いスイッチ521の異なる配置を備えた他の実施例を示す。
図2aは本発明の第2の態様に従う好適な符号化スキームを示す。スイッチ200の入力側に接続された共通前処理のスキームは、サラウンド/ジョイントステレオブロック101を含み、このブロック101はジョイントステレオパラメータとモノラル出力信号とを出力として生成し、このモノラル出力信号は、2つ以上のチャネルを有する入力信号をダウンミックスすることで生成したものである。一般的に、ブロック101の出力における信号は2つ以上のチャネルを有する信号であっても良いが、ブロック101のダウンミックス機能により、ブロック101の出力におけるチャネル数はブロック101へ入力されたチャネル数よりも小さくなるであろう。
共通前処理のスキームは、ブロック101に対して代替的に、或いはブロック101に対して追加的に、帯域拡張ステージ102を含む。図2aに示す実施例では、ブロック101の出力は帯域拡張ブロック102へと入力され、このブロック102は、図2aの符号器においては、低帯域信号又は低域通過信号等の帯域制限された信号を出力する。好適には、この信号はさらに(例えば係数2で)ダウンサンプルされる。加えて、ブロック102に入力された信号の高帯域のために、スペクトル包絡パラメータ,逆濾波パラメータ,ノイズフロアパラメータ等、MPEG−4のHE−AACプロファイルから公知である帯域拡張(BWE)パラメータが生成され、ビットストリームマルチプレクサ800へと入力される。
好適には、判別ステージ300はブロック101に入力された信号やブロック102に入力された信号を受け取り、例えば音楽モードかスピーチモードかの間で判定を実行する。音楽モードの場合には上方の符号化分枝400が選択され、スピーチモードの場合には下方の符号化分枝500が選択される。好適には、判定ステージはジョイントブロック101及び/又は帯域拡張ブロック102をさらに制御し、これらブロックの機能を特定の信号に対して適合させる。つまり、判定ステージが、入力信号の所定の時間部分は音楽モードのような第1モードであると判定した場合には、ブロック101及び/又はブロック102の所定の特性を判別ステージ300により制御することができる。一方、判定ステージ300が、入力信号はスピーチモード又は一般的には第2のLPCドメインモードであると判定した場合には、ブロック101及び102の所定の特性を判別ステージの出力に従って制御することができる。
好適には、符号化分枝400のスペクトル変換は、MDCT操作、さらに好適には時間ワープされたMDCT操作を使用して実行されてもよく、このとき、強度又は一般的にはワーピング強度は、ゼロから一定の高さのワーピング強度までの間に制御されても良い。ワーピング強度がゼロの場合、ブロック411におけるMDCT操作は当業者の中では公知の単純なMDCT操作である。時間ワーピング強度と時間ワーピングサイド情報とが一緒に、サイド情報としてビットストリームマルチプレクサ800へと伝送/入力されても良い。
LPC符号化分枝においては、LPCドメインの符号化手段は、ピッチゲイン、ピッチラグ及び/又はコードブック指標やゲインのようなコードブック情報を計算する、ACELPコア526を含んでも良い。非特許文献1から知られるようなTCXモードでは、聴覚心理的に重み付けられた信号が変換ドメインで処理される。フーリエ変換された重み付き信号は、ノイズファクタ量子化を伴う分離マルチレート格子(split multi-rate lattice) 量子化(代数VQ)を使用して量子化される。変換は、1024,512又は2056サンプルのウインドウの中で計算される。励振信号は、量子化された重み付き信号を逆の重み付けフィルタを通して逆濾波することで回復される。
第1符号化分枝400においては、スペクトル変換器は、好適には、所定の窓関数を有する特別に適合化されたMDCT操作と、それに続く量子化/エントロピー符号化ステージとを含んでいる。この量子化/エントロピー符号化ステージは単一のベクトル量子化ステージで構成されても良いが、好適には、周波数ドメイン符号化分枝内、即ち図2aのステージ421内の量子化/符号化器に類似した結合型のスカラー量子化/エントロピー符号化器が望ましい。
第2符号化分枝には、LPCブロック510とそれに続くスイッチ521があり、さらにACELPブロック526又はTCXブロック527が続いている。ACELPは非特許文献2に記載され、TCXは非特許文献1に記載されている。一般的に、ACELPブロック526は図7eに記載の処理によって計算されたLPC励振信号を受け取り、TCXブロック527は図7fによって生成された重み付き信号を受け取る。
TCXにおいては、LPCベースの重み付けフィルタを通じて入力信号を濾波することで計算された重み付き信号に対し、変換が適用される。本発明の好適な実施例において使用される重み付けフィルタは、(1−A(z/γ))/(1−μz-1)である。従って、重み付き信号はLPCドメイン信号であり、その変換型はLPCスペクトルドメインである。ACELPブロック526により処理された信号は励振信号であり、ブロック527により処理された信号とは異なるが、両方の信号ともLPCドメインである。
図2bに示す復号器側では、ブロック537における逆スペクトル変換の後で、重み付けフィルタの逆、即ち(1−μz-1)/(1−A(z/γ))が適用される。その後、この信号は(1−A(z))を通して濾波され、LPC励振ドメインになる。このようにLPCドメインブロック534とTCX-1ブロック537への変換は、逆変換と、その後の
Figure 0005555707
を通した濾波とを含み、重み付きドメインから励振ドメインへと変換される。
図1a,図1c,図2a,図2cにおける装置510は単一のブロックを示しているが、ブロック510はLPCドメインである限り様々な信号を出力できる。励振信号モードや重み付き信号モード等、ブロック510の実際のモードは実際のスイッチの状態に依存する。代替的に、ブロック510は2つの平行処理装置を持つことができ、この場合、1つの装置は図7eに類似する構成を持ち、他の装置は図7fのような構成を持つ。そのため、装置510の出力におけるLPCドメインは、LPC励振信号、LPC重み付き信号、又は他のいずれかのLPCドメイン信号を表現することができる。
図2a又は図2cに示す第2符号化分枝(ACELP/TCX)において、信号は、符号化の前にフィルタ(1−0.68z-1)により事前強調されてもよい。図2bのACELP/TCX復号器においては、合成された信号はフィルタ1/(1−0.68z-1)により非強調される。この事前強調は、信号をLPC分析及び量子化の前に事前強調するLPCブロック510の一部で実施することができる。同様に、非強調はLPC合成ブロックLPC-1540の一部で実施することができる。
図2cは図2aに示す構成の他の実施例を示すが、スイッチ521の配置は異なり、図4bの原理に近い。
好適な実施例では、第1スイッチ200(図1a又は図2aを参照)は(図4aのように)開ループ判定を通じて制御され、第2スイッチは(図4bのように)閉ループ判定を通じて制御される。
例えば、図2cでは、第2スイッチ521は図4bのようにACELP及びTCX分枝の後に配置されている。第1処理分枝では、第1LPCドメインはLPC励振信号を表し、第2処理分枝では、第2LPCドメインはLPC重み付き信号を表す。つまり、第1LPCドメイン信号は、フィルタ(1−A(z))を介した濾波によりLPC残余ドメインへと変換することで取得され、他方、第2LPCドメイン信号は、フィルタ(1−A(z/γ))/(1−μz-1)を介した濾波によりLPC重み付きドメインへと変換することで取得される。
図2bは、図2aの符号化スキームに対応する復号化スキームを示す。図2aのビットストリームマルチプレクサ800により生成されるビットストリームは、ビットストリーム・デマルチプレクサ900へと入力される。例えばモード検出ブロック601を介してビットストリームから導出される情報に依存して、復号器側スイッチ600は、上方の分枝からの信号又は下方の分枝からの信号のどちらかを帯域拡張ブロック701へと送り出す。帯域拡張ブロック701は、ビットストリーム・デマルチプレクサ900からサイド情報を受け取り、このサイド情報とモード判定601の出力とに基づき、スイッチ600から出力された低帯域に基づいた高帯域を再構築する。
ブロック701により生成されたフル帯域信号は、ジョイントステレオ/サラウンド処理ステージ702へと入力され、ここで、2チャネル即ちステレオチャネル、又は複数チャネル即ち多チャネルが再構築される。一般的に、ブロック702は、このブロックに入力されたチャネル数よりも多い数のチャネルを出力する。アプリケーションに依るが、このブロックからの出力が入力よりも多数のチャネルを有する限り、ブロック702への入力はステレオモード等のように2チャネルを含んでいても良く、さらに2以上のチャネルを含んでいても良い。
これまで、スイッチ200は2つの分枝の間で切替を実行し、その結果、1つの分枝だけが処理すべき信号を受け取り、他の分枝は処理すべき信号を受け取らないと説明してきた。しかし、代替的な実施例においては、このスイッチは例えばオーディオ符号化手段421及び励振符号化手段522,523,524の後に配置されても良い。つまり、両方の分枝400と500とが同じ信号を並行処理しても良い。しかし、ビットレートが2倍にならないように、これら符号化分枝400,500のうちの1つによって出力された信号だけが選択され、出力ビットストリームの中へと書き込まれる。この場合、判定ステージは、ビットストリームへと書き込まれた信号が所定のコスト関数を最小化するように作動してもよい。このコスト関数とは、生成されたビットレート、生成された知覚的歪、又はレートと歪との組合せのいずれかのコスト関数であっても良い。このように、このモード又は図示するモードにおいて、判定ステージは閉ループモードでも作動することができ、その結果、与えられた知覚的歪に対しては最小のビットレートで、又は、与えられたビットレートに対しては最小の知覚的歪を持つような符号化分枝出力だけが、最終的にビットストリームへと書き込まれる。閉ループモードでは、フィードバック入力は、図1aの3つの量子化器/スケーラブロック421,522,524の出力から導出されても良い。
2つのスイッチを有する実施形態においては、即ち、第1スイッチ200と第2スイッチ521とを有する実施形態においては、第1スイッチのための時間分解能が第2スイッチのための時間分解能よりも低いことが好ましい。換言すれば、スイッチ操作を介して切替可能な第1スイッチへの入力信号のブロックは、LPCドメインで作動する第2のスイッチによって切り替えられるブロックよりも大きい。例として、周波数ドメイン/LPCドメイン・スイッチ200は1024個のサンプルから成る長さのブロックを切り替え、第2のスイッチ521は各256個のサンプルを持つブロックを切り替えても良い。
図1aから図10bまでのいくつかは装置のブロック図として表されているが、これらの図は方法を示す図でもあり、各ブロック機能は各方法ステップに対応する。
図3aは第1符号化分枝400と第2符号化分枝500の出力として符号化されたオーディオ信号を生成するオーディオ符号器を示す。さらに、符号化されたオーディオ信号は、共通前処理ステージからの前処理パラメータや、上述した図に関連して説明したようにスイッチ制御情報等のサイド情報を含むのが好ましい。
第1符号化分枝はオーディオ中間信号195を第1符号化アルゴリズムに従って符号化し、このとき第1符号化アルゴリズムは情報シンクモデルを有するのが好ましい。第1符号化分枝400は第1符号化手段出力信号を生成し、この信号はオーディオ中間信号195の符号化されたスペクトル情報表示である。
さらに、第2符号化分枝500はオーディオ中間信号195を第2符号化アルゴリズムに従って符号化し、このとき第2符号化アルゴリズムは情報ソースモデルを有し、第2符号化手段出力信号の中にオーディオ中間信号を表示する情報ソースモデルのための符号化されたパラメータを生成するのが好ましい。
オーディオ符号器は、オーディオ入力信号99を前処理してオーディオ中間信号195を取得するための共通前処理ステージ100をさらに備える。具体的には、この共通前処理ステージは、オーディオ入力信号99を処理してオーディオ中間信号195即ちこの共通前処理アルゴリズムの出力が、オーディオ入力信号の圧縮済バージョンとなるように処理する。
符号化されたオーディオ信号を生成するための好適なオーディオ符号化方法は、次のステップを備える。オーディオ中間信号195を第1符号化アルゴリズムに従って符号化するステップ400であって、第1符号化アルゴリズムは情報シンクモデルを有し、第1出力信号の中に、オーディオ信号の符号化されたスペクトル情報表示を生成するステップと、オーディオ中間信号195を第2符号化アルゴリズムに従って符号化するステップ500であって、第2符号化アルゴリズムは情報ソースモデルを有し、第2出力信号の中に、オーディオ中間信号195を表示する情報ソースモデルのための符号化されたパラメータを生成するステップと、オーディオ入力信号99に共通前処理を施してオーディオ中間信号195を取得するステップ100であって、この共通前処理ステップは、オーディオ入力信号99に対し、オーディオ中間信号195がオーディオ入力信号99の圧縮済バージョンとなるように処理するステップと、を備える。符号化されたオーディオ信号は、そのオーディオ信号の所定の部分に第1出力信号又は第2出力信号のいずれかを含む。この方法は、オーディオ中間信号の所定の部分を第1符号化アルゴリズム若しくは第2符号化アルゴリズムのいずれかを使用して符号化するか、又はその信号を両方のアルゴリズムを使用して符号化するステップと、第1符号化アルゴリズムの結果若しくは第2符号化アルゴリズムの結果のいずれかを符号化済信号として出力するステップと、をさらに備えるのが好ましい。
一般的には、第1符号化分枝400で使用されるオーディオ符号化アルゴリズムは、オーディオシンク内の状態を反映し且つモデル化する。オーディオ情報のシンクとは、通常、人間の耳である。人間の耳は周波数分析器としてモデル化されることが可能である。従って、第1符号化分枝は符号化されたスペクトル情報を出力する。好適には、第1符号化分枝は、聴覚心理的マスキング閾値を追加的に適用するための聴覚心理モデルをさらに備える。聴覚心理的マスキング閾値は、オーディオスペクトル値を量子化する際に使用される。スペクトルオーディオ値を量子化することで量子化ノイズが導入されるが、このノイズが聴覚心理マスキング閾値の下で隠されるように、量子化を実行するのが望ましい。
第2符号化分枝は情報ソースモデルを表し、オーディオ音響の生成を反映する。情報ソースモデルはスピーチモデルを含んでも良く、このスピーチモデルはLPC分析ステージによって反映される。即ち、時間ドメイン信号をLPCドメインへと変換し、次にLPC残余信号、即ち励振信号を処理する中で反映される。代替的な音響ソースモデルは、所定の楽器又は現実の世界に存在する特定の音響ソース等、他のいかなる音響生成物であっても良い。複数の音響ソースモデルが有効である場合には、異なる音響ソースモデル間の選択が例えばSNR計算に基づいて実行されても良い。即ち、オーディオ信号の所定の時間部分及び/又は周波数部分を符号化するために、どのソースモデルが最も適切であるかという計算に基づいて実行されても良い。しかし、好適には符号化分枝間の切替は時間ドメインで実行される。即ち、中間信号の所定の時間部分は1つのモデルを使用して符号化され、異なる所定の時間部分は他の符号化分枝を使用して符号化される。
情報ソースモデルは所定のパラメータにより表示される。AMR−WB+のような現代的なスピーチ符号器を考慮した場合、スピーチモデルに関しては、パラメータはLPCパラメータであり、符号化された励振パラメータである。AMR−WB+はACELP符号器とTCX符号器を含む。この場合、符号化された励振パラメータは、グローバルゲイン,ノイズフロア,及び可変長符号であっても良い。
図3bは図3aの符号器に対応する復号器を示す。全体として図3bは、符号化されたオーディオ信号を復号化し、復号化されたオーディオ信号799を取得する復号器を示している。この復号器は、情報シンクモデルを有する第1符号化アルゴリズムに従って符号化された符号化済信号を復号化するための第1復号化分枝450を含む。また、この復号器は、情報ソースモデルを有する第2符号化アルゴリズムに従って符号化された符号化済情報信号を復号化するための第2復号化分枝550をさらに含む。また、このオーディオ復号器は、第1復号化分枝450及び第2復号化分枝550からの出力信号を結合し、結合済信号を得るための結合器600をさらに含む。この結合済信号は、図3bでは復号化済オーディオ中間信号699として示され、共通後処理ステージ700へと入力される。この共通後処理ステージにおいて、復号化済オーディオ中間信号699であり結合器600から出力された結合済信号である信号は、この後処理ステージからの出力信号が結合済信号の拡張済バージョンになるように後処理される。その結果、復号化済オーディオ信号799は、復号化済オーディオ中間信号699と比較してより強化された情報内容を持つ。このような情報拡張は、共通後処理ステージにより前/後処理パラメータを用いて実行されるが、これらのパラメータは、符号器から復号器へと伝送されるか、又は復号化済オーディオ中間信号そのものから導出されても良い。しかし、前/後処理パラメータは符号器から復号器へと伝送されることが好ましい。なぜなら、その方が復号化されたオーディオ信号の品質を向上させることができるからである。
図3cはオーディオ入力信号195を符号化するオーディオ符号器を示し、この入力信号は本発明の好適な実施例に従う図3aのオーディオ中間信号195と等しくても良い。オーディオ入力信号195は、例えば時間ドメインでも良い第1ドメインにおいて存在するが、この第1ドメインはまた、周波数ドメイン,LPCドメイン,LPCスペクトルドメイン又は他のいかなるドメインでも良い。概して、1つのドメインから他のドメインへの変換は、時間/周波数変換アルゴリズム又は周波数/時間変換アルゴリズムのいずれかのような公知の変換アルゴリズムによって実行される。
時間ドメインからの変換の代替的な変換として、例えばLPCドメインへの変換があり、このLPCドメインへの変換は、時間ドメイン信号をLPC濾波した結果であり、LPC残余信号又は励振信号として得られる。場合によっては、濾波された信号を生成する操作であり、変換前の信号サンプル数に実質的な影響を与える操作であれば、他のいかなる濾波操作でも変換アルゴリズムとして使用することができる。従って、LPCベースの重み付けフィルタを使用してオーディオ信号を重み付けする操作も、LPCドメインでの信号を生成する他の一変換方法である。時間/周波数変換では、1つのスペクトル値を修正すると、変換前の全ての時間ドメイン値に対して影響を与えることになる。同様に、いかなる時間ドメインサンプルを1つ修正しても、各周波数ドメインサンプルに対して影響を与えるであろう。同様に、LPCドメイン状態の励振信号のサンプルを修正しても、LPCフィルタの長さのために、LPC濾波前の実質的なサンプル数に対して影響を与えることになる。また同様に、LPC変換の前にサンプルを修正しても、LPCフィルタの生来の記憶効果のために、このLPC変換により取得される多くのサンプルに対して影響を与えるであろう。
図3cのオーディオ符号器は、第1符号化済信号を生成する第1符号化分枝400を含む。この第1符号化済信号は、第4ドメイン、即ちこの好適な実施例においては時間スペクトルドメイン(周波数ドメイン)であっても良い。つまり、時間ドメイン信号を時間/周波数変換を介して処理することで得られるドメインであっても良い。
このように、オーディオ信号を符号化するための第1符号化分枝400は、第1符号化アルゴリズムを使用して第1符号化済信号を取得する。この第1符号化アルゴリズムは、時間/周波数変換アルゴリズムを含んでも含まなくても良い。
オーディオ符号器は、オーディオ信号を符号化するための第2符号化分枝500をさらに含む。この第2符号化分枝500は、第1符号化アルゴリズムとは異なる第2符号化アルゴリズムを使用して、第2符号化済信号を取得する。
オーディオ符号器は、第1符号化分枝400と第2符号化分枝500との間で切替を実行する第1スイッチ200をさらに含み、その結果、オーディオ入力信号の一部分については、ブロック400の出力である第1符号化済信号、又は第2符号化分枝の出力である第2符号化済信号のいずれかが、符号器の出力信号の中に含まれるようになる。つまり、オーディオ入力信号195の所定の部分について、第4ドメインの第1符号化済信号が符号器出力信号の中に含まれている場合には、第2符号化済信号、即ち第2ドメインの第1処理済信号又は第3ドメインの第2処理済信号は符号器出力信号の中に含まれない。これにより、当該符号器の高いビットレート効率が保証される。本発明の実施例においては、図3eに関して後述するように、2つの異なる符号化済信号に含まれるオーディオ信号のいかなる時間部分も、1つのフレームのフレーム長に比べれば小さい。これらの小さな部分は、切替イベントの中で、1つの符号化済信号から他の符号化済信号へのクロスフェードのために有用であり、クロスフェードが無い場合に発生する可能性のあるアーチファクトを低減させるのに役立つ。従って、クロスフェード領域を除けば、各時間ドメインブロックは単一ドメインの符号化済信号によって表示される。
図3cに示すように、第2符号化分枝500は、第1ドメインのオーディオ信号即ち信号195を第2ドメインへと変換するための変換器510を備える。第2符号化分枝500は、第2ドメインのオーディオ信号を処理して第1処理済信号を得るための第1処理分枝522をさらに備え、好適には、この第1処理済信号も第2ドメインであって、第1処理分枝522はドメイン変換を実行しない。
第2符号化分枝500は、第2ドメインのオーディオ信号を第3ドメインへと変換するための第2処理分枝523,524をさらに備え、この第3ドメインは第1ドメインとも第2ドメインとも異なり、オーディオ信号を第3ドメインで処理し、第2処理分枝523,524の出力において第2処理済信号を取得する。
第2符号化分枝は、第1処理分枝522と第2処理分枝523,524との間で切替を実行する第2のスイッチ521をさらに備え、その結果、第2符号化分枝へと入力されたオーディオ信号の一部分については、第2ドメインの第1処理済信号或いは第3ドメインの第2処理済信号のいずれかが第2符号化済信号の中に存在することになる。
図3dは、図3cの符号器により生成された符号化されたオーディオ信号を復号化するための対応する復号器を示す。一般的に、第1ドメインオーディオ信号の各ブロックは、任意のクロスフェード領域は別として、第2ドメイン信号,第3ドメイン信号,又は第4ドメイン符号化済信号のうちのいずれかにより表示される。このクロスフェード領域は、臨界サンプリングの制限において最高のシステムを得るために、1つのフレームよりも短い方が望ましい。符号化されたオーディオ信号は、第1符号化済信号と、第2ドメインの第2符号化済信号と、第3ドメインの第3符号化信号とを含み、これら第1符号化済信号,第2符号化済信号,及び第3符号化済信号は全て、復号化されたオーディオ信号の異なる時間部分に関連し、また、復号化されたオーディオ信号に係る第2ドメイン,第3ドメイン及び第1ドメインは互いに異なる。
この復号器は、第1符号化アルゴリズムに基づいて復号化する第1復号化分枝を備える。この第1復号化分枝は、図3dでは431,440により示され、好適には周波数/時間変換器を含む。第1符号化済信号は好適には第4ドメインであり、復号化された出力信号のドメインである第1ドメインへと変換される。
図3dの復号器は、複数の要素を含む第2復号化分枝をさらに備える。これらの要素は、第2符号化済信号を逆処理する第1逆処理分枝531を含み、このブロック531の出力において第1逆処理済信号を第2ドメインで取得する。この第2復号化分枝は、第3符号化済信号を逆処理する第2逆処理分枝533,534をさらに備え、第2逆処理済信号を第2ドメインで取得する。この第2逆処理分枝は第3ドメインから第2ドメインへの変換を実行する変換器を含む。
この第2復号化分枝は第1結合器532をさらに備え、第1逆処理済信号と第2逆処理済信号とを結合し、第2ドメインにおいて1つの信号を取得する。この結合済信号は、第1の時間的瞬間には第1逆処理済信号によってのみ影響を受け、その後のある時間的瞬間には第2逆処理済信号によってのみ影響を受ける。
第2復号化分枝は、結合済信号を第1ドメインへと変換する変換器540をさらに備える。
最後に、図3dに示す復号器は、ブロック431,440から出力された第1復号化済信号と、変換器540の出力信号とを結合し、復号化された出力信号を第1ドメインで取得する第2結合器600をさらに備える。この復号化された第1ドメインの出力信号は、第1の時間的瞬間には変換器540により出力された信号のみの影響を受け、その後のある時間的瞬間には、ブロック431,440により出力された第1復号化済信号のみの影響を受ける。
図3eはこの状態を符号器側の視点から説明する。図3eの上側部分は、概略図的な表現で、時間ドメインオーディオ信号等の第1ドメインオーディオ信号を示し、時間指標は左から右へと増大し、項目3は図3cの信号195を表示するオーディオサンプルのストリームとして捉えられても良い。図3eは、第1符号化済信号と第1処理済信号と第2処理済信号との間で項目4に示されるように切替を実行することで生成されても良い、フレーム3a,3b,3c,3dを示す。第1符号化済信号と第1処理済信号と第2処理済信号とは全て異なるドメインにあり、異なるドメイン間での切替が復号器側でのアーチファクトをもたらすことがないようにするために、時間ドメイン信号のフレーム3aと3bとはクロスフェード領域として示されるオーバーラップ領域を有し、このようなクロスフェード領域はフレーム3bと3cとの間にも存在する。しかし、このようなクロスフェード領域はフレーム3cと3dとの間には存在しない。つまり、フレーム3dもまた第2処理済信号、即ち第3ドメインにおける信号により表示されており、フレーム3cと3dとの間にはドメイン変化は存在しないという意味である。従って、一般的には、ドメイン変化がない場合にはクロスフェード領域を設けず、ドメイン変換がある場合つまり2つのスイッチのいずれかの切替動作がある場合には、クロスフェード領域、即ちオーディオ信号の部分であって2つの連続する符号化済/処理済信号により符号化される部分を設けることが望ましい。好適には、クロスフェードは他のドメインへの変化のために実行される。
第1符号化済信号又は第2処理済信号が、例えば50%のオーバーラップを有するMDCT処理により生成された場合の本発明の実施例においては、各時間ドメインサンプルは2つの連続するフレームの中に含まれる。しかし、この点は、MDCTの特徴により、つまりMDCTが臨界的にサンプリングされたシステムであるから、オーバーヘッドをもたらすことはない。ここで、臨界的にサンプリングされたとは、スペクトル値の数が時間ドメイン値の数と同じであることを意味する。MCDTは次のような利点を持つ。即ち、特別なクロスオーバー領域が無い状態でクロスオーバー効果が提供されるので、あるMDCTブロックから次のMDCTブロックへのクロスオーバーを、臨界サンプリングの条件に違反するいかなるオーバーヘッドも無い状態で提供できる。
好適には、第1符号化分枝の中の第1符号化アルゴリズムは情報シンクモデルに基づき、第2符号化分枝の中の第2符号化アルゴリズムは情報ソース又はSNRモデルに基づく。SNRモデルとは、特定の音響生成メカニズムに関連するものではなく、複数の符号化モードの中から例えば閉ループ判定に基づいて選択可能な1つの符号化モードである。このようにSNRモデルは有効な符号化モデルの1つであるが、音響生成器の物理的な構成とは必ずしも関係がなく、情報シンクモデルとは異なるパラメータ化された符号化モデルの1つであり、閉ループ判定に基づいて、特に様々なモデルからの様々なSNRの結果を比較することで選択可能である。
図3cに示すように、制御器300,525が設けられる。この制御器は、図1aの判定ステージ300の機能を含んでも良く、さらには図1aのスイッチ制御装置525の機能を含んでも良い。一般的には、この制御器は、第1スイッチ及び第2スイッチを信号適応型の方法で制御する。この制御器は、第1スイッチへと入力された信号や、第1又は第2符号化分枝により出力された信号や、第1及び第2符号化分枝から符号化及び復号化によって得られた信号を、ある目標関数に対して分析する。代替的に又は追加的に、この制御器は、第2スイッチへと入力された信号や、第1処理分枝又は第2処理分枝から出力された信号や、第1処理分枝及び第2処理分枝から処理と逆処理とによって得られた信号を、ある目標関数に対して分析する。
1つの実施例においては、第1符号化分枝又は第2符号化分枝は、MDCT又はMDST(変形離散サイン変換)アルゴリズム等のエイリアシングを導入する時間/周波数変換アルゴリズムを含み、このアルゴリズムはエイリアシング効果をもたらさない単純なFFTとは異なるものである。さらに、1つ又は両方の分枝は量子化/エントロピー符号化ブロックを備える。具体的には、第2符号化分枝の第2処理分枝だけがエイリアシング操作を導入する時間/周波数変換器を含み、第2符号化分枝の第1処理分枝は量子化及び/又はエントロピー符号化器を含むが、いかなるエイリアシング効果も導入しない。エイリアシングを導入する時間/周波数変換器は、好適には、分析ウインドウ及びMDCT変換アルゴリズムを適用するためのウインドウ化手段を備える。さらに具体的には、このウインドウ化手段は連続するフレームに対してオーバーラップする方法で窓関数を適用し、その結果、ウインドウ化された信号の1つのサンプルが少なくとも2つの連続するウインドウ化済フレームの中に生成される。
ある実施例においては、第1処理分枝はACELPの符号化手段を備え、第2処理分枝は、スペクトル成分を量子化して量子化済スペクトル成分を得るMDCTスペクトル変換器及び量子化器を備える。この時、各量子化済スペクトル成分はゼロであるか、又は複数の異なる発生可能な量子化指標の中の1つの量子化指標により定義される。
さらに、第1スイッチ200は開ループ方式で、第2スイッチは閉ループ方式で作動することが望ましい。
上述したように、両方の符号化分枝はオーディオ信号をブロック単位の方法で符号化する。この場合、第1スイッチ又は第2スイッチはブロック単位で切替を実行し、その結果、切替動作は最低でも信号の所定数のサンプルから成る1つのブロックの後で実行されることになり、この所定数とは対応するスイッチのための1つのフレーム長を形成する数である。このように、第1スイッチによる切替の1単位は例えば2048個か1028個のサンプルから成るブロックであっても良く、第1スイッチ200の切替の基になるフレーム長は可変的でも良いが、好適にはこのように長い期間に固定される。
これとは対照的に、第2スイッチ521のためのブロック長、即ち第2スイッチ521が1つのモードから他のモードへと切替を実行する時間は、第1スイッチのブロック長よりも実質的に短い。好適には、両方のスイッチの各ブロック長は、長いブロック長が短いブロック長の整数倍になるように選択される。好適な実施例においては、第1スイッチのブロック長は2048又は1024であり、第2スイッチのブロック長は1024であるか、より好適には512であり、さらに好適には128サンプルである。その結果、第1スイッチがたった1回の切替を実行する間に、第2スイッチは最大では16回の切替を実行できる。しかし、好ましい最大ブロック長比率は、4:1である。
他の実施例においては、制御器300,525は、第1スイッチのためのスピーチ・音楽の識別を、スピーチへの判定が音楽への判定に対して優先されるような方法で実行する。この実施例では、第1スイッチへ入力される1つのフレームの50%未満がスピーチであり、フレームの50%を超える比率が音楽である場合でも、スピーチへの判定が実行される。
さらに、第1フレームのかなり小さな部分がスピーチである場合でも、具体的には、第1フレームのある部分がスピーチであって、この部分がより小さな第2フレームの長さの50%である場合でも、この制御器はスピーチへと切り替える。従って、好適なスピーチ優先切替判定は、例えば第1スイッチのフレーム長に対応するブロックのたった6%又は12%がスピーチである場合でも、スピーチへの切替を実行する。
このような処理は、ある実施例においては有声音のスピーチコアを有しているような第1処理分枝のビットレート節約能力を十分に活用するために好ましく、また、大きな第1フレームの非スピーチである残りの部分についても全く品質低下を招かないためにも好ましい。第2処理分枝は変換器を含み、従って非スピーチ信号をも有するオーディオ信号にとって有益である。好ましくは、この第2処理分枝は臨界サンプリングされたオーバーラップMDCTを含み、このMDCTは、オーバーラップ及び加算等のような時間ドメインのエイリアシング除去処理によって、小さいウインドウサイズであっても高効率でエイリアシングのない操作を復号器側において提供する。さらに、好適にはAACのようなMDCT符号化分枝である第1符号化分枝に対しては、大きなブロック長が有益である。なぜなら、非スピーチ信号は通常かなり静的であり、長い変換ウインドウが高い周波数分解能、つまり高品質を提供し、加えて、聴覚心理的に制御された量子化モジュールによってビットレート効率を提供するからである。このモジュールはまた、第2符号化分枝の第2処理分枝における変換ベースの符号化モードに対しても適用することができる。
図3dの復号器に関しては、伝送された信号が図3eに示すサイド情報4aのような明示的な指標を含むことが好ましい。このサイド情報4aは、図3dには示されていないビットストリームパーサによって抽出され、対応する第1符号化済信号,第1処理済信号,又は第2処理済信号を、図3dに記載の第1復号化分枝,第1逆処理分枝又は第2逆処理分枝のような処理器へと正しく出力する。従って、符号化済信号は、符号化済/処理済信号だけではなく、これらの信号に関連するサイド情報も含む。しかし、他の実施例においては、復号化側のビットストリームパーサが所定の信号の間に読み取ることができるような暗示的な信号化があっても良い。図3eに関して説明すれば、第1処理済信号又は第2処理済信号が第2符号化分枝の出力であり、従って、第2符号化済信号である。
好適には、第1復号化分枝及び/又は第2逆処理分枝は、スペクトルドメインから時間ドメインへ変換するためのMDCT変換を含む。このためオーバーラップ・加算器が設けられ、時間ドメイン・エイリアシング除去機能を実行し、同時にクロスフェード効果を提供し、ブロッキングアーチファクトを防止する。一般的に、第1復号化分枝は第4ドメインで符号化された信号を第1ドメインへと変換し、第2逆処理分枝は第3ドメインから第2ドメインへの変換を実行し、第1結合器の次に接続された変換器は第2ドメインから第1ドメインへの変換を実行する。その結果、結合器600の入力においては第1ドメインの信号だけが存在し、これらの信号が図3dの実施例においては復号化された出力信号を表示する。
図4aと図4bは2つの異なる実施例を示し、その相違点はスイッチ200の位置である。図4aでは、スイッチ200は共通前処理ステージ100の出力と2つの符号化分枝400,500の入力との間に配置される。図4aの実施例では、オーディオ信号が単一の符号化分枝にだけ入力されることが保証され、共通前処理ステージの出力に接続されない他の符号化分枝は作動せず、よってスイッチオフか又はスリープ状態となる。この実施例は次のような利点がある。即ち、非作動の符号化分枝が電力及び演算資源を消費せず、この点がモバイルアプリケーション、特に電池式電源であることから消費電力には全体的な制限があるアプリケーションに対して有益である。
しかし、他方、図4bの実施例は消費電力が問題ではない場合には好適と言える。この実施例では、両方の分枝400と500とが常に作動状態であり、所定の時間部分及び/又は所定の周波数部分のために選択された符号化分枝の出力だけがビットストリームフォーマッタへと出力される。このフォーマッタはビットストリームマルチプレクサ800として構成されても良い。つまり、図4bの実施例では、両方の符号化分枝が常に作動しており、判定ステージ300により選択された符号化分枝の出力だけが出力ビットストリームの中へ組み込まれ、選択されない他の符号化分枝の出力は放棄される。即ち、出力ビットストリームであり符号化されたオーディオ信号の中へは組み込まれない。
好適には、第2符号化規則/復号化規則はLPCベースの符号化アルゴリズムである。LPCベースのスピーチ符号化においては、準周期的(quasi-periodic)インパルス状の励振信号分節又は信号部分と、ノイズ状の励振信号分節又は信号部分との間の区別が行われる。これは、図7bのような非常に低いビットレートのLPCボコーダ(2.4kbps)に対して実行される。しかし、中位のレートのCELP符号化手段においては、適応型コードブック及び固定型コードブックからのスケールされたベクトルの足し算によって励振信号が得られる。
準周期的インパルス状の励振信号分節、即ち特定のピッチを持つ信号分節は、ノイズ状の励振信号分節とは異なるメカニズムを用いて符号化される。準周期的インパルス状の励振信号が有声音のスピーチに関連する一方で、ノイズ状信号は無声音のスピーチに関連する。
例示的に図5a〜図5dを参照する。ここでは、準周期的インパルス状の信号分節又は信号部分と、ノイズ状の信号分節又は信号部分とについて例示的に説明する。具体的には、図5aでは時間ドメインで示され、図5bでは周波数ドメインで示される有声音スピーチは、準周期的インパルス状の信号部分の一例として説明し、ノイズ状信号の一例としての無声音スピーチは、図5cと図5dに関連して説明する。スピーチは、一般的に、有声音、無声音又はそれらの混合として分類される。サンプル化された有声音及び無声音の分節についての時間及び周波数ドメインの図表を図5a〜図5dに示す。有声音のスピーチは、時間ドメインにおいては準周期的であり、周波数ドメインにおいてはハーモニックに構成されている一方で、無声音スピーチは、ランダム状で広帯域である。有声音スピーチの短時間スペクトルは、その繊細でハーモニックなフォルマント構成により特徴付けられる。この繊細でハーモニックな構成は、スピーチの準周期的な性格の結果であり、振動する声帯に起因すると言っても良い。フォルマント構成(スペクトル包絡)は、ソース及び発声経路の相互作用によるものである。発声経路は、咽頭と口腔から成る。有声音スピーチの短時間スペクトルに「適合」するスペクトル包絡の形は、発声経路の変換特性と音門パルスによるスペクトル傾斜(6dB/オクターブ)とに関連する。スペクトル包絡は、フォルマントと呼ばれるピークの集合体により特徴付けられる。フォルマントは発声経路の反響モードである。平均的な発声経路に対し、5kHz未満の3〜5個のフォルマントが存在する。通常は3kHz未満で発生する初めの3つのフォルマントの振幅と位置は、スピーチ合成と知覚との両方において非常に重要である。これより高いフォルマントも、広帯域で無声音のスピーチ表現にとって重要である。スピーチの特性は、以下のような物理的なスピーチ生成システムに関連している。つまり、有声音のスピーチは、声帯を振動させることで生成される準周期的な声門空気パルスにより、発声経路を励振することで生成される。周期的パルスの周波数は、基本周波数又はピッチと呼ばれている。無声音スピーチは、発声経路内の狭窄に対して呼気を強制通過させることで生成される。鼻音は鼻孔経路を発声経路に音響的に結合させることで生成され、破裂音は発声経路の中にある閉鎖部分の後部に形成された呼気圧力を急激に解放することで生成される。
図5cや図5dに示すようなオーディオ信号のノイズ状部分は、いかなるインパルス状の時間ドメイン構造もハーモニックな周波数ドメイン構造も示さず、例えば図5aや図5bに示すような準周期的インパルス状部分とも異なる。しかし、後段で説明するように、ノイズ状部分と準周期的インパルス状部分との間の区別は、励振信号のためのLPCの後で実行されても良い。LPCとは、発声経路をモデル化し、その信号から発声経路の励振を抽出する方法である。
さらに、準周期的インパルス状部分とノイズ状部分とは時間的な挙動で発生可能である。即ち、オーディオ信号の時間的なある部分はノイズ状であり、オーディオ信号の時間的な他の部分は準周期的、即ち調性があるという意味である。代替的に又は追加的に、異なる周波数帯域では信号の特性も異なる可能性がある。従って、オーディオ信号がノイズ状か又は調性を有するかという判別もまた、ある所定の周波数帯域又は複数の所定の周波数帯域がノイズ状と判別され、他の周波数帯域が調性を有すると判別されるように、周波数選択的に実行されても良い。この場合には、オーディオ信号のある時間部分が調性要素とノイズ要素とを含んでいても良い。
図7aはスピーチ生成システムの線形モデルを示す。このシステムは2段階の励振を想定している。即ち、図7cに示すような有声音スピーチのためのインパルス列と、図7dに示すような無声音スピーチのためのランダムノイズである。発声経路は全極フィルタ70としてモデル化され、このフィルタは声門モデル72により生成された図7c又は図7dに示すようなパルスを処理する。よって、図7aに示すシステムは図7bの全極フィルタモデルに削減されることができ、このモデルは、ゲインステージ77、前方向経路78、フィードバック経路79、及び加算ステージ80を備える。フィードバック経路79には予測フィルタ81が設けられ、図7bに示す全体のソースモデル合成システムはZドメイン関数を用いて次のように表現できる。
S(z)=g/(1−A(z))・X(z)
ここで、gはゲインを示し、A(z)はLP分析により決定された予測フィルタであり、X(z)は励振信号であり、S(z)は合成スピーチ出力である。
図7cと図7dは、線形ソースシステムモデルを使用した有声音と無声音のスピーチ合成を時間ドメインで図示したものである。このシステムと上記等式における励振パラメータとは未知であり、スピーチサンプルの有限セットから決定される必要がある。A(z)の係数は入力信号の線形予測とフィルタ係数の量子化とを使用して取得される。p次の前方線形予測においては、スピーチシーケンスの現在のサンプルは、p個の通過サンプルの線形結合から予測される。予測器の係数は、Levinson-Durbinアルゴリズム等の公知のアルゴリズムか、又は一般的には自動相関法(autocorrelation method)や反射法(reflection method)により決定することができる。
図7eは、LPC分析ブロック510のさらに詳細な構成を示す。オーディオ信号は、フィルタ情報A(z)を決定するフィルタ決定ブロック83へと入力される。この情報は、復号器のために必要な短期間予測情報として出力される。この短期間予測情報は現実の予測フィルタ85にとって必要である。減算器86においては、オーディオ信号の現時点のサンプルが入力され、その現時点のサンプルに対する予測値が減算され、その結果、このサンプルのための予測誤差信号がライン84において生成される。図7cや図7dはこのような予測誤差信号サンプルのシーケンスを非常に概略的に示している。従って、図7a,図7bは一種の調整されたインパルス状信号として見ることもできる。
図7eは励振信号を計算する好適な方法を示す。他方、図7fは重み付き信号を計算する好適な方法を示し、図7eとは対照的に、γが1でないときにはフィルタ85は異なる。γは1よりも小さな値が好ましい。さらにブロック87が存在し、μは1よりも小さい数が好ましい。一般的に、図7e及び図7fの構成要素は、非特許文献2又は非特許文献1に従って構成されても良い。
図7gは逆処理を示し、この逆処理は、復号器側において図2bに示す要素537等に対して適用されても良い。特に、ブロック88は重み付き信号から非重み付き信号を生成し、ブロック89はこの非重み付き信号から励振信号を計算する。一般的に、図7gの非重み付き信号を除く全ての信号はLPCドメインであるが、励振信号と重み付き信号とは同じドメイン内の異なる信号である。ブロック89は励振信号を出力し、その後、この出力信号とブロック536の出力信号とを一緒に使用することができる。その後、共通逆LPC変換が図2bのブロック540において実行される。
次に、合成による分析CELP符号器を図6に関連して説明し、このアルゴリズムに適用される修正について説明する。このCELP符号器は非特許文献3の中で詳細に記載されている。図6に示すCELP符号器は、長期間予測要素60と短期間予測要素62とを含む。さらに、コードブック64も使用される。知覚的重み付けフィルタW(z)66と、誤差最小化制御器68とが設けられている。s(n)は時間ドメイン入力信号である。知覚的に重み付けされた後に、重み付き信号は減算器69へと入力され、この減算器は、ブロック66の出力における重み付きの合成信号と、元の重み付き信号sw(n)との間の誤差を計算する。一般的に、短期間予測フィルタ係数A(z)はLP分析ステージで計算され、その係数は図7eに示すようにA(z)で量子化される。長期間予測ゲインgとベクトル量子化指標、即ちコードブック参照表とを含む長期間予測情報AL(z)は、図7eの中で番号10aとして示されるLPC分析ステージの出力において、その予測誤差信号について計算される。LTP(長期間予測)パラメータはピッチ遅延とゲインである。CELPにおいては、これは通常、過去の励振信号(残余ではない)を含む適応型コードブックとして構成されている。適応型コードブックの遅延及びゲインは、平均二乗重み付き誤差を(閉ループピッチ探索により)最小化することで求められる。
次に、CELPアルゴリズムは、例えばガウス列のコードブックを使用して、短期間予測及び長期間予測の後で得られた残余信号を符号化する。「代数」を表す「A」を持つACELPアルゴリズムは、特定の代数的に設計されたコードブックを有する。
コードブックはいくつかのベクトルを持ち、各ベクトルの長さはいくつかのサンプルの長さを表す。ゲインファクタgはコードベクトルをスケールし、その利得コードは長期間予測合成フィルタと短期間予測合成フィルタとにより濾波される。減算器69の出力における知覚的な重み付き平均二乗誤差が最小となるように、「最適な」コードベクトルが選択される。CELPにおける探索プロセスは、図6に示すような合成による分析の最適化によって実行される。
1つのフレームが無声音スピーチと有声音スピーチの混合である場合、又は音楽の上にスピーチが載っている場合のような特異な場合には、TCX符号化がLPCドメインにおける励振信号を符号化するためにより適切であり得る。TCX符号化は、周波数ドメインにおける重み付き信号を、励振生成を全く想定することなく処理する。ゆえに、TCX符号化は、CELP符号化に比べてより一般的であり、励振の有声音又は無声音ソースモデルに限定されることはない。TCXは、スピーチ状信号のフォルマントをモデル化するための、線形予測的フィルタを使用するソース指向のモデル符号化である。
AMR−WB+のような符号化においては、AMR−WB+解説書から知られるように、様々なTCXモード及びACELPの間の選択が行われる。TCXモードには、異なるモードに対してブロック毎の離散フーリエ変換の長さが異なるという点から様々なものがあり、合成による分析の手法や直接的な「フィードフォワード」モードによって最適なモードが選択可能である。
図2aと図2bに関連して説明したように、共通前処理ステージ100は、好適にはジョイント多チャネル(サラウンド/ジョイントステレオ装置)101を備え、帯域拡張ステージ102をさらに備える。これに対応して、復号器は、帯域拡張ステージ701と、次に接続されたジョイント多チャネルステージ702とを含む。好適には、信号処理方向において、符号器では、ジョイント多チャネルステージ101が帯域拡張ステージ102の前に接続され、復号器側では、帯域拡張ステージ701がジョイント多チャネルステージ702の前に接続される。しかし、代替的に、共通前処理ステージは、後続の帯域拡張を持たないジョイント多チャネルステージを含んでも良いし、又は、後続のジョイント多チャネルステージを持たない帯域拡張ステージを含んでも良い。
符号器側のジョイント多チャネルステージ101aと101bと、復号器側のジョイント多チャネルステージ702aと702bのための好適な例を、図8に関連して説明する。E個のオリジナル入力チャネルがダウンミキサ101aへと入力され、その結果、ダウンミキサはK個の伝送チャネルを生成する。ここで、Kは1以上であり且つE以下の数である。
好適には、E個の入力チャネルは、パラメトリック情報を生成するジョイント多チャネルパラメータ分析器101bへと入力される。このパラメトリック情報は、好適には、差分符号化の後にハフマン符号化を続けるか、又は代わりに算術符号化を続けるか等の操作により、エントロピー符号化されている。ブロック101bにより出力された符号化済パラメトリック情報は、パラメータ復号器702bへと伝送され、この復号器は図2bに示す装置702の一部であっても良い。パラメータ復号器702bは伝送されたパラメトリック情報を復号化し、復号化されたパラメトリック情報をアップミキサ702aへと出力する。アップミキサ702aは、K個の伝送されたチャネルを受け取り、L個の出力チャネルを生成する。ここで、Lの数はK以上であり、且つE以下である。
パラメトリック情報は、BCC技術から知られ、或いはMPEGサラウンド標準において公知であり且つ詳細に記述されている、チャネル間レベル差,チャネル間時間差,チャネル間位相差,及び/又はチャネル間コヒーレンスを含んでも良い。伝送されるチャネルの数は、超低ビットレートアプリケーションのための単一モノラルチャネルであっても良く、又は、互換性のあるステレオアプリケーション或いは互換性のあるステレオ信号、即ち2つのチャネルを含んでいても良い。典型的には、E個の入力チャネルの個数とは5又はそれ以上であっても良い。代替的に、E個の入力チャネルの個数は、空間オーディオオブジェクト符号化(SAOC)において知られるE個のオーディオオブジェクトの個数であっても良い。
ある実施形態においては、ダウンミキサは、オリジナルのE個の入力チャネルの重み付き又は非重み付きの加算、又はE個の入力オーディオオブジェクトの加算を実行する。入力チャネルがオーディオオブジェクトの場合には、ジョイント多チャネルパラメータ分析器101bは、オーディオオブジェクトの間の相関行列等のオーディオオブジェクトパラメータを、好適には各時間部分に対し、さらに好適には各周波数帯域に対して計算する。この目的のために、全体の周波数領域は、少なくとも10個、好適には32個或いは64個の周波数帯域に分割されても良い。
図9は、図2aの帯域拡張ステージ102と、これに対応する図2bの帯域拡張ステージ701との構成の好適な実施例を示す。符号器側では、帯域拡張ブロック102は、低域通過フィルタブロック102bとダウンサンプルブロックと高帯域分析器102aとを備えることが好ましく、ダウンサンプルブロックは、低域通過フィルタの後に続くか、又はQMF帯域の半分だけについて作動する逆QMFの一部である。帯域拡張ブロック102へと入力されたオリジナルオーディオ信号は低域通過濾波され、低帯域信号を生成し、次に符号化分枝及び/又はスイッチへと入力される。この低域通過フィルタは、3kHz〜10kHzの領域でも良いカットオフ周波数を持つ。さらに、帯域拡張ブロック102は、スペクトル包絡パラメータ情報,ノイズフロアパラメータ情報,逆濾波パラメータ情報,高帯域内の所定のハーモニックラインに関連する他のパラメトリック情報,及びMPEG4標準のスペクトル帯域複製に関連する章に詳細に記載されている他の追加的なパラメータ等の帯域拡張パラメータを計算するための、高域分析器をさらに含む。
復号器側においては、帯域拡張ブロック701は、パッチャ701aと調整器701bと結合器701cとを備える。結合器701cは、復号化された低帯域信号と、調整器701bにより出力された再構築済及び調整済の高帯域信号とを結合する。調整器701bへの入力はパッチャにより供給されるが、このパッチャは、スペクトル帯域複製や一般的には帯域拡張により低帯域信号から高帯域信号を導出する。パッチャ701aにより実行されるパッチングは、ハーモニックな方法で実行されるパッチングでも、又は非ハーモニックな方法で実行されるパッチングでも良い。このパッチャ701aにより生成された信号は、次に、伝送されたパラメトリック帯域拡張情報を使用して調整器701bにより調整される。
好適な実施例においては、図8及び図9に示すように、上述のブロックがモード制御入力を備えても良い。このモード制御入力は、判定ステージ300の出力信号から導出される。このような好適な実施例においては、判定ステージの出力、即ちオーディオ信号の所定の時間部分がスピーチか音楽かという判定に対し、対応するブロックの特性を順応させても良い。好適には、このモード制御はこれらブロックの1つ以上の機能に関連しても良いが、しかし、ブロックの全ての機能に対して関連したものではない。例えば、上記判定はパッチャ701aにだけ影響を与えるが、図9の他のブロックに対しては影響を与えなくても良いし、例えば図8のジョイント多チャネルパラメータ分析器101bにだけ影響を与えるが、図8の他のブロックに対しては影響を与えなくても良い。このような構成は、好適には、共通前処理ステージに柔軟性を持たせることで、高い柔軟性と高い品質と低ビットレートの出力信号とを得ることを目的としている。しかし、他方、共通前処理ステージにおいて両方の種類の信号に対してアルゴリズムを使用することで、効率的な符号化/復号化スキームの実行を可能になる。
図10aと図10bは、判定ステージ300の2つの異なる構成を示す。図10aにおいては、開ループの判定が示される。ここでは、判定ステージ内の信号分析器300aが所定の規則を持ち、入力信号の所定の時間部分又は所定の周波数部分の特性を分析し、この信号部分は第1符号化分枝400で符号化すべきか、又は第2符号化分枝500で符号化すべきかについての判定を行う。この目的のため、信号分析器300aは、共通前処理ステージへのオーディオ入力信号を分析しても良く、共通前処理ステージによる出力信号即ちオーディオ中間信号を分析しても良く、又は図8に示すようにモノラル信号やk個のチャネルを持つ信号でも良いダウンミキサからの出力信号等の共通前処理ステージ内の中間信号を分析しても良い。出力側では、信号分析器300aは、符号器側のスイッチ200と、復号器側の対応するスイッチ又は結合器600とを制御するための切替判定を生成する。
第2スイッチ521については詳細に説明していないが、図4a,図4bに関連して説明したように、第2スイッチ521も第1スイッチ200と同様の方法で配置されても良い。従って、図3cにおけるスイッチ521は、両方の処理分枝522と523,524との出力側に代替的に配置してもよく、その場合、両方の分枝が並行して作動し、1つの処理分枝の出力だけが図3cには示されていないビットストリーム形成器を介してビットストリームへと書き込まれる。
さらに、第2結合器600は図4cで説明したような特定のクロスフェード機能を持っても良い。代替的又は追加的に、第1結合器532も同じクロスフェード機能を持っても良い。さらにまた、両方の結合器が同じクロスフェード機能を持っても良く、異なるクロスフェード機能を持っても良く、或いは、クロスフェード機能が全くない、つまり両方の結合器がクロスフェード機能を全く持たないスイッチであっても良い。
既に上述したが、両方のスイッチは、図10a及び図10bに関連して説明したように、開ループの判定を介しても、又は閉ループの判定を介しても制御することができる。このとき、図3cの制御器300,525は、両方のスイッチに対し異なる機能を持っても良いし、同じ機能を持っても良い。
さらに、信号適応型の時間ワーピング機能は、第1符号化分枝又は第1復号化分枝に存在できるだけではなく、符号器側の第2符号化分枝の第2処理分枝にも、さらには復号器側にも存在しても良い。処理済信号に依存して、両方の時間ワーピング機能が同じ時間ワーピング情報を持ち、第1ドメインにおいても第2ドメインにおいても同じ時間ワーピングが適用されても良い。この場合には処理の負担が軽減されるので、いくつかの場合、即ち連続するブロックが類似する時間ワーピングの時間特性を持つ場合に役立つであろう。しかし、他の実施例においては、第1符号化分枝と第2符号化分枝の第2処理分枝とのために、それぞれ独立した時間ワープ評価器を持つことが望ましい。
本発明の符号化されたオーディオ信号は、デジタル記憶媒体に記憶されることが可能であり、インターネットのような無線伝送媒体又は有線伝送媒体等、伝送媒体を介して伝送されることも可能である。
他の実施例では、図1a又は図2aのスイッチ200が、2つの符号化分枝400,500の間で切替を行う。さらに他の実施例では、第3符号化分枝,第4符号化分枝,又はそれ以上の符号化分枝等、追加的な符号化分枝を持つことができる。復号器側においては、図1b又は図2bのスイッチ600が2つの復号化分枝の間、即ち分枝431,440と、分枝531,532,533,534,540との間で切替を実行する。さらに他の実施例では、第3復号化分枝,第4復号化分枝又はそれ以上の復号化分枝等、追加的な復号化分枝を持つことができる。同様に、そのように追加的な符号化/復号化分枝が有る場合には、他のスイッチ521又は532は、2つ以上の異なる符号化アルゴリズムの間で切替を行っても良い。
図12aは符号器の構成の好適な一実施例を示し、図12bは対応する復号器の構成の好適な一実施例を示す。対応する参照番号について上述した要素に加え、図12aの実施例は、個別の聴覚心理モジュール1200を備え、さらに、図11aではブロック421で示された、追加的な符号化ツールの好適な構成を備えている。これらの追加的なツールとは、時間ノイズシェーピンク(TNS)ツール1201と、中央/サイド符号化ツール(M/S)1202である。さらに、上記要素421/524の追加的機能は、ブロック421/542において、スケーリング,ノイズ充填分析,量子化,及びスペクトル値の算術符号化が組合せられた構成として示される。
図12bに示す対応する復号器の構成も追加的な要素を備えている。それらは、M/S復号化ツール1203とTNS−復号器ツール1204である。さらに、これまでの図には示されていない、低音ポストフィルタ(bass postfilter)1205も備えている。遷移ウインドウ化(transition windowing)ブロック532は、図2Bでスイッチとして示される要素532に対応し、オーバーサンプリングされたクロスフェード又は臨界サンプリングされたクロスフェードのいずれかで良い、ある種のクロスフェードを実行する。後者は、あるMDCT操作として実行され、そこでは二つの時間エイリアシングされた部分がオーバーラップされ且つ加算される。この臨界サンプリングされた遷移処理は適切な場所で使用されることが望ましい。なぜなら、品質において全く損失がない状態で、全体のビットレートを低減できるからである。追加的な遷移ウインドウ化ブロック600は図2Bの結合器600に対応し、ここでもスイッチとして示されていたが、しかし、この要素は明らかに、臨界サンプリング又は非臨界サンプリングされたある種のクロスフェードを実行し、その結果、1つのブロックが第1分枝で処理され他のブロックが第2分枝で処理された場合に、ブロッキングアーチファクト、具体的にはスイッチングアーチファクトの発生を防止する。しかし、両方の分枝における処理が互いに完璧に一致する場合には、このクロスフェード操作はあるハードスイッチへと「降格」できる一方で、クロスフェード操作は両分枝間の「ソフト」スイッチとして理解される。
図12aと図12bに示す概念により、スピーチとオーディオコンテンツの任意の混合を有する信号を符号化することが可能になり、この概念は、スピーチ又は一般的なオーディオコンテンツのいずれかの符号化のために特別仕様された最良の符号化技術に匹敵するか又はそれ以上の優れた機能を発揮する。符号器及び復号器の構造を一般的に説明すれば、ステレオ又は多チャネル処理を実行するMPEGサラウンド(MPEGS)機能ユニットと、入力信号内の高いオーディオ周波数のパラメトリック表示を処理する強化されたスペクトル帯域複製(eSBR)ユニットと、からなる共通の前‐後処理が存在する構造と言うことができる。さらに、2つの分枝が存在し、1つの分枝は修正された高効率オーディオ符号化(AAC)ツールの経路からなり、他の分枝は線形予測符号化(LP又はLPCドメイン)ベースの経路から成る。後者の経路は、次に、LPC残余の周波数ドメイン表示又は時間ドメイン表示を有する。AACとLPCとの両方に伝送された全てのスペクトルは、量子化と算術符号化に続いてMDCTドメインで表示される。時間ドメイン表示は、ACELP励振符号化スキームを使用する。これらの基本的構造は符号器については図12a、復号器については図12bで示す。これらの図においてデータは、左から右、上から下への方向で流れる。この復号器の機能は、ビットストリームペイロード内の量子化されたオーディオスペクトル又は時間ドメイン表示の記述を発見し、その量子化された値や他の再構築情報を復号化することである。
スペクトル情報が伝送された場合には、復号器は量子化されたスペクトルを再構築し、その再構築されたスペクトルをビットストリームペイロード内の何らかの活性化したツールを用いて処理することで、入力されたビットストリームペイロードにより記述された通りの、実際の信号スペクトルに到達し、最終的には、周波数ドメインのスペクトルを時間ドメインへと変換する。最初の再構築とそのスペクトル再構築のスケーリングに続き、より効率的な符号化を可能にするために1つ又は複数のスペクトルを修正する、任意のツールが存在する。
時間ドメイン信号表示が伝送された場合には、復号器は量子化された時間信号を再構築し、その再構築された時間信号をビットストリームペイロード内の活性化しているあらゆるツールを用いて処理することで、入力されたビットストリームペイロードにより記述された通りの、実際の時間ドメイン信号に到達する。
信号データを操作する前記任意の各ツールについて、「通過する」か否かの選択が維持され、かつ処理が省略された全ての場合においては、入力におけるスペクトル又は時間サンプルが、修正されずにそのままそのツールを通過する。
前述のビットストリームの信号表示が、時間ドメインから周波数ドメイン表示へと変化し、或いはLPドメインから非LPドメインへと変化し、又はそれらの逆に変化する場合、復号器は、ある適切な遷移オーバーラップ−加算ウインドウ処理を用いて、1つのドメインから他のドメインへ容易に遷移するであろう。
eSBRとMPEGSの処理は、遷移処理の後に、両方の符号化経路に対して同様に適応される。
ビットストリームペイロード・デマルチプレクサツールへの入力は、ビットストリームペイロードである。このデマチルプレクサは、ビットストリームペイロードを各ツールのための部分に分割し、各ツールに対してそのツールに関連したビットストリームペイロード情報を提供する。
ビットストリームペイロード・デマルチプレクサツールからの出力は、以下の通りである。
(1)現時点のフレームにおけるコア符号化方式に依存して、以下のいずれかの情報:
・量子化されノイズレスに符号化された次で表現されたスペクトル
・スケールファクタ情報
・算術的に符号化されたスペクトルライン
・又は、次のいずれかにより表現された励振信号と共に、線形予測(LP)パラメータ:
・量子化され算術的に符号化されたスペクトルライン(変換符号化済励振、TCX)又は、
・ACELP符号化された時間ドメイン励振
(2)スペクトルノイズ充填情報(任意)
(3)M/S決定情報(任意)
(4)時間ノイズ整形(TNS)情報(任意)
(5)フィルタバンク制御情報
(6)時間アンワーピング(time unwarping)(TW)制御情報(任意)
(7)強化されたスペクトル帯域複製(eSBR)制御情報
(8)MPEGサラウンド(MPEGS)制御情報
スケールファクタ・ノイズレス復号化ツールは、ビットストリームペイロード・デマルチプレクサからの情報を引き出し、その情報を解析し、ハフマン符号化及びDPCM符号化されたスケールファクタを復号化する。
スケールファクタ・ノイズレス復号化ツールへの入力は、ノイズレスに符号化されたスペクトルのためのスケールファクタ情報である。
スケールファクタ・ノイズレス復号化ツールからの出力は、スケールファクタの復号化された整数表現である。
スペクトル・ノイズレス復号化ツールは、ビットストリームペイロード・デマルチプレクサから情報を取り出し、その情報を解析し、算術的に符号化されたデータを復号化し、その量子化されたスペクトルを再構築する。このノイズレス復号化ツールへの入力は、ノイズレスに符号化されたスペクトルである。
このノイズレス復号化ツールからの出力は、スペクトルの量子化された値である。
逆量子化器ツールは、スペクトルの量子化された値を受け取り、その整数値をスケールされていない再構築されたスペクトルへと変換する。この量子化器は圧伸量子化器であり、その圧伸ファクタは、選択されたコア符号化モードに依存する。
逆量子化器ツールへの入力は、スペクトルの量子化された値である。
逆量子化器ツールからの出力は、スケールされていない逆量子化済スペクトルである。
ノイズ充填ツールは、復号化されたスペクトル内のスペクトルギャップを充填するために使用される。このギャップは、例えば符号器内においてビット要求に対して強い制限があるなどの理由により、スペクトル値がゼロに量子化されたときに発生する。ノイズ充填ツールの使用は任意である。
ノイズ充填ツールへの入力は、以下の通りである:
・スケールされていない逆量子化済スペクトル
・ノイズ充填パラメータ
・スケールファクタの復号化された整数表現。
ノイズ充填ツールへの出力は、以下の通りである:
・事前にゼロへと量子化されたスペクトルラインのための、スケールされていない逆量子化済スペクトル値
・スケールファクタの修正された整数表示。
再スケーリングツールは、スケールファクタの整数表示を実際の値に変換し、かつそのスケールされていない逆量子化済スペクトルを、関連するスケールファクタで乗算する。
上記再スケーリングツールへの入力は、以下の通りである:
・スケールファクタの復号化された整数表示
・スケールされていない逆量子化済スペクトル。
上記再スケーリングツールからの出力は、スケーリングされた、逆量子化済スペクトルである。
M/Sツールに関する説明は、非特許文献4を参照されたい。
時間ノイズ整形(TNS)ツールに関する説明も、非特許文献4を参照されたい。
フィルタバンク/ブロック切替ツールは、符号化器内で実行された周波数マッピングの逆を適応する。フィルタバンクツールのために逆の変形離散コサイン変換(IMDCT)が使用される。このIMDCTは120,128,240,256,320,480,512,576,960,1024,1152のスペクトル係数をサポートするように構成されても良い。
フィルタバンクツールへの入力は、
・(逆量子化された)スペクトルと、
・フィルタバンク制御情報と、である。
フィルタバンクツールからの出力は、時間ドメインの再構築済オーディオ信号である。
時間ワープされたフィルタバンク/ブロック切替ツールは、時間ワーピングモードが活性化された時に、通常のフィルタバンク/ブロック切替ツールと置き換わる。この時間ワープされたフィルタバンクはIMDCTに関して通常のフィルタバンクと同じであるが、追加的に、ウインドウ処理された時間ドメインサンプルが、時間変化するリサンプリングにより、ワープされた時間ドメインから線形時間ドメインへとマッピングされる。
時間ワープされたフィルタバンクツールへの入力は、
・逆量子化されたスペクトルと、
・フィルタバンク制御情報と、
・時間ワーピングの制御情報と、である。
このフィルタバンクツールからの出力は、線形時間ドメインの再構築済オーディオ信号である。
強化されたSBR(eSBR)ツールは、オーディオ信号の高帯域を再構築する。この方法は、符号化の際に省略されたハーモニックスのシーケンスの複製に基づいている。この方法は、生成された高帯域のスペクトル包絡を調整し、逆の濾波を適用し、さらにノイズと正弦波成分を加算することで、オリジナル信号のスペクトル特性を再構築する。
eSBRツールへの入力は、
・量子化された包絡データと、
・種々の(Misc.)制御データと、
・AACコア復号器からの時間ドメイン信号と、である。
eSBRツールからの出力は、
・時間ドメイン信号、又は
・例えばMPEGサラウンドツールが使用された場合には、信号のQMF−ドメイン表示、のどちらかである。
MPEGサラウンド(MPEGS)ツールは、1つ又は複数の入力信号から多数の信号を生成する。この生成は、適切な空間パラメータの制御の下で、ある洗練されたアップミックスの処理を入力信号に適用することで達成される。USAC(統一的なスピーチ及びオーディオ符号化)の文脈において、MPEGは、伝送されたダウンミックス済信号と一緒にパラメトリックサイド情報をも伝送する手法で、多チャネル信号の符号化のために使用される。
上記MPEGツールへの入力は、
・ダウンミックス済の時間ドメイン信号、又は
・eSBRツールからのダウンミックス済信号のQMF−ドメイン表示、である。
上記MPEGツールからの出力は、
・多チャネル時間ドメイン信号である。
信号分類ツールは、オリジナル入力信号を分析し、様々の符号化モードを選択する決め手となる制御情報を、その信号から生成する。入力信号の分析は構成に依存するものであり、与えられた入力信号フレームのために最適なコア符号化モードを選択しようと試みる。この信号分類からの出力は、(任意ではあるが)その他のツールの挙動に影響を与えるためにも使用できる。その他のツールとは、例えばMPEGサラウンド、強化されたSBR、時間ワープされたフィルタバンクなどである。
信号分類ツールへの入力は、
・オリジナルの未修正入力信号と、
・構成に依存した追加のパラメータと、である。
信号分類ツールの出力は、
・コアコーデック(LP濾波されていない周波数ドメイン符号化、LP濾波済周波数ドメイン又はLP濾波済時間ドメイン符号化)の選択を制御するための制御情報である。
本発明では、図12aのブロック410の中及び図12aの変換器523の中における時間/周波数分解能は、オーディオ信号に依存して制御されている。図13aは、ウインドウ長と変換長と時間分解能と周波数分解能との間の相関関係を示す。この図から、長いウインドウ長の場合には、時間分解能は低くなるが周波数分解能は高くなることが明らかであり、また、短いウインドウ長の場合には、時間分解能は高くなるが周波数分解能は低くなることが明らかである。
第一符号化分枝、即ち好適には図12Aにおいて要素410,1201,1202,421によって示すAAC符号化分枝においては、種々のウインドウを使用することができる。ここで、ウインドウ形状はある信号分析器によって決定され、その信号分析器は、好適には信号分類ブロック300内に含まれても良いが、分離したモジュールであってもよい。符号器は、図13Bに示す種々の時間/周波数分解能を持つウインドウのうちの1つを選択する。1番目の長いウインドウ、3番目のウインドウ、4番目のウインドウ、5番目のウインドウ及び6番目のウインドウの時間/周波数分解能は、変換長1024に対応する2048個のサンプリング値に等しい。図13Bの2番目のラインに示す短いウインドウは、そのウインドウサイズに応じた256個のサンプリング値の時間分解能を有する。この分解能は変換長128に対応する。
同様に、最後の二つのウインドウは、2304に等しいウインドウ長を持ち、これは上述した1番目のラインのウインドウよりも高い周波数分解能であるが、より低い時間分解能である。これら最後の2つのウインドウの変換長は、1152に等しい。
第一符号化分枝においては、図13b内の変換ウインドウから生成される様々なるウインドウシーケンスが構築可能である。図13cでは短いシーケンスは1つだけ示されており、他の複数の「シーケンス」は単一のウインドウだけから構成されているが、複数のウインドウからなる大きなシーケンスも構築可能である。図13bによれば、小さな数の係数、即ち1024の代わりとなる960のような係数については、時間分解能もまた、1024のような対応する高い係数における時間分解能よりも低くなるという点に留意すべきである。
図14a−14gは、第2符号化分枝における様々な分解能/ウインドウサイズを示す。本発明のある好適な実施例では、第2符号化分枝は、あるACELP時間ドメイン符号器526である第一の処理分枝と、フィルタバンク523を含む第2処理分枝とを含む。この分枝では、例えば2048個のサンプルからなる1つのスーパーフレームが、256個のサンプルからなるフレームへとサブ分割される。256個のサンプルからなる個々のフレームは別々に使用可能であり、その結果、50%のオーバーラップを持つMDCTが適用された場合に、各ウインドウが2つのフレームをカバーする4つのウインドウのシーケンスが適用できる。次に、図14dに示すように、ある高い時間分解能が使用される。代替的に、信号が長いウインドウを許可する場合には、図14cに示すようなシーケンスが適用できる。この場合、各ウインドウ(中間長のウインドウ)について1024個のサンプルを持つ、あるダブルウインドウサイズが適用され、その結果、1つのウインドウが4つのフレームをカバーし、50%のオーバーラップとなる。
最後に、長いウインドウを使用できる信号である場合には、その長いウインドウは4096個以上のサンプルに渡って延び、オーバーラップはやはり50%となる。
上述のように、2つの分枝が存在し、1つの分枝はあるACELP符号器を持つような好適な実施例においては、図14eに示すような1つのスーパーフレーム内で、「A」で示すACELPフレームの位置により、「T」で示す2つの隣接するTCXフレームに対して適用されるウインドウサイズが決定されても良い。基本的に、可能な場合には長いウインドウが使用されるものである。しかし、2つのAフレームの間に1つのTフレームがある場合には、短いウインドウを適用しなければならない。中間長のウインドウは、2つのTフレームが隣接する場合に適用できる。しかし、3つのTフレームが隣接する場合には、対応する大きなウインドウを適用することは、複雑性が増すという理由で効果的ではない。従って、3番目のTフレームは、Aフレームが前に無いにも拘わらず、短いウインドウにより処理されることができる。スーパーフレーム全体がTフレームだけを持つ場合には、長いウインドウを適用できる。
図14fはウインドウのための幾つかの代替案を示す。ここでは、好適な50%のオーバーラップに起因して、ウインドウサイズは常に、2×lg(lg:スペクトル係数の数)となる。しかし、全ての符号化分枝について他のオーバーラップパーセンテージも適用可能であり、その結果、ウインドウサイズと変換長との間の関係が2とは異なっても良く、時間ドメイン・エイリアシングが適用されない場合のように、1に近づいても良い。
図14gは、図14fに記載の規則に基づいてウインドウを構築するための規則を示す。値ZLはウインドウの開始点におけるゼロの個数を示す。値Lはエイリアシングゾーンにおけるウインドウ係数の個数を示す。部分Mの値は、Mに対応する部分にゼロを持つような隣接するウインドウとのオーバーラップにより、エイリアシングを全く導入しない「1」の値である。この部分Mの次には、右側のオーバーラップゾーンRが続き、このRの後には、後続のウインドウの部分Mに対応しても良い、ゼロのZRゾーンが続く。
以下に添付する付録を参照されたい。この付録部分は、本発明のオーディオ符号化/復号化スキームの好適かつ詳細な構成を、特に復号化側について記載するものである。
[付録]
1. ウインドウ及びウインドウシーケンス
量子化及び符号化は周波数ドメインで実行される。この目的のため、時間信号は符号器内で周波数ドメインへとマッピングされる。復号器はサブクローズ(subclause)2に記載のような逆マッピングを実行する。信号に依るが、符号器は3つの異なるウインドウサイズ、即ち2304,2048,256を使用して時間/周波数分解能を変化させても良い。ウインドウ間を切り替えるために、遷移ウインドウ(transition window) LONG_START_WINDOW,LONG_STOP_WINDOW, START_WINDOW_LPD,STOP_WINDOW_1152,STOP_START_WINDOW 及び STOP_START_WINDOW_1152 が使用される。図13Bはウインドウを示すものであり、対応する変換長を特定し、各ウインドウの形状を概略的に示す。3つの変換長、即ち、1152と、(長い変換長と呼ぶ)1024(又は960)と、(短い変換長と呼ぶ)128(120)個の係数を持つ変換長が使用される。
ウインドウシーケンスは、raw_data_block が常に1024(又は960)個の出力サンプルを表現するデータを含むという方法で、ウインドウから構成されている。データ要素である window_sequenceは、実際に使用されているウインドウシーケンスを示す。図13cは各ウインドウシーケンスがどのように個別のウインドウから構成されているかを示す。変換とウインドウについての詳細な情報は、サブクローズ(subclause)2に記載する。
1.2 スケールファクタ帯域とグルーピング
非特許文献5を参照されたい。
非特許文献5に記載のように、スケールファクタ帯域の幅は人間の聴覚システムの臨界帯域を真似て構築されている。そのため、1つのスペクトルにおけるスケールファクタ帯域の個数とそれらの幅とは、変換長とサンプリング周波数とに依存する。非特許文献6は、変換長1024(960)及び128(120)と、サンプリング周波数と、における各スケールファクタ帯域の開始点へのオフセットを示す。元々はLONG_WINDOW,LONG_START_WINDOW 及びLONG_STOP_WINDOW のために設計されたそれらの表は、START_WINDOW_LPD 及びSTOP_START_WINDOWのためにも使用される。表4〜表10はSTOP_WINDOW_1152 及び STOP_START_WINDOW_1152 のためのオフセット表である。
1.3 lpd_channel_stream() の復号化
lpd_channel_stream()ビットストリーム要素は、「線形予測ドメイン」の符号化済信号からなる1つのフレームを復号化するために必要な全ての情報を含む。この要素は、LPCドメインで符号化された、即ちLPC濾波ステップを含む方法で符号化された符号化済信号からなる1つのフレームのためのペイロードを含む。このフィルタの残余(所謂「励振」)は、次にACELPモジュールを用いて表現されるか、又はMDCT変換ドメイン(「変換符号化済励振」,TCX)で表現される。信号特性への近しい調整を可能にするため、1つのフレームは同一サイズを持つ4つの小さなユニットへと分割され、各ユニットはACELP又はTCXの符号化スキームを用いて符号化される。
上述のプロセスは、非特許文献1に記載の符号化スキームと類似している。この文献から受け継ぐものであるが、僅かに異なる用語使いとして、次のような用語が挙げられる。即ち、1つの「スーパーフレーム」とは1024個のサンプルからなる1つの信号文節を表し、1つの「フレーム」とはその正確な4分の1、即ち256個のサンプルを持つ。これらの各フレームは、同一の長さを持つ4つの「サブフレーム」へとさらに分割される。本件の説明ではこのような用語使いを採用していることに注意されたい。
1.4 定義、データ要素
acelp_core_mode … このビットフィールドは、ACELPがlpd符号化モードとして使用された場合の正確なビット割当のスキームを示す。
lpd_mode … このビットフィールドモードは(1つのAACフレームに対応する)lpd_channel_stream()の1つのスーパーフレーム内の4つの各フレームのための符号化モードを定義する。これらの符号化モードはアレイmod[]内に記憶され、0〜3の値をとることができる。lpd_mode からmod[]へのマッピングは以下の表1から決定できる。
表1−lpd_channel_stream()のための符号化モードのマッピング
Figure 0005555707
mod[0..3] … アレイmod[]内の値は各フレームにおける各符号化モードを示す。
表2−mod[]により示される符号化モード
Figure 0005555707
acelp_coding() … ACELP励振の1フレームを復号化する全てのデータを含むシンタクス要素である。
tcx_coding() … MDCTベースの変換符号化済励振(TCX)の1フレームを復号化する全てのテータを含むシンタクス要素である。
first_tcx_flag … 現時点に処理されるTCXフレームが1つのスーパーフレーム内の1番目か否かを示すフラグである。
lpc_data() … 現時点のスーパーフレームを復号化するために必要な全てのLPCフィルタパラメータセットを復号化する全てのテータを含むシンタクス要素である。
first_lpd_flag … 現時点のスーパーフレームが、LPCドメインで符号化されたスーパーフレームの列内の1番目か否かを示すフラグであり、このフラグは次に示す表3に従ってビットストリーム要素 core_mode (channel_pair_element の場合にはcore_mode0 及び core_mode1)の履歴からも決定できる。
表3−first_lpd_flagの定義
Figure 0005555707
last_lpd_mode … 先行して復号化されたフレームのlpd_mode を示す。
1.5 復号化のプロセス
lpd_channel_streamにおける復号化の手順は以下の通りである。
acelp_core_modeを取得する。
lpd_modeを取得してそこからhelper variable mod[]のコンテンツを決定する。
helper variable mod[]のコンテンツに依存して、acelp_coding 又は tcx_coding のデータを取得する。
lpc_dataを取得する。
1.6 ACELP/TCX符号化モードの組合せ
非特許文献7の5.2.2章の記載と同様に、lpd_channel_streamペイロードの1つのスーパーフレーム内にはACELP又はTCXの許可された組合せが26通り存在する。これら26通りのモード組合せの1つが、ビットストリーム要素lpd_modeの中で信号化されている。1つのサブフレーム内の各フレームにおけるlpd_modeから実際の符号化モードへのマッピングは、表1及び表2に示される。
表4−44.1kHz及び48kHzにおけるSTOP_START_1152_WINDOW 及び STOP_1152_WINDOWのためのウインドウ長2304のスケールファクタ帯域
Figure 0005555707
表5−32kHzにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長2304のスケールファクタ帯域
Figure 0005555707
表6−8kHzにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長2304のスケールファクタ帯域
Figure 0005555707
表7−11.025kHz,12kHz及び16kHzにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長2304のスケールファクタ帯域
Figure 0005555707

表8−22.05kHz及び24kHzにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長2304のスケールファクタ帯域
Figure 0005555707

表9−64kHzにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長2304のスケールファクタ帯域
Figure 0005555707

表10−88.2kHz及び96kHzにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長2304のスケールファクタ帯域
Figure 0005555707
1.7 スケールファクタ帯域表の参照文献
他の全てのスケールファクタ帯域表については、非特許文献8を参照されたい。
1.8 量子化
符号器におけるAACスペクトル係数の量子化のために、不均一の量子化器が使用される。そのため、復号器は、スケールファクタのハフマン復号化(サブクローズ6.3を参照)とスペクトルデータのノイズレス復号化(サブクローズ6.1を参照)の後で、逆の不均一量子化を実行しなければならない。
TCXスペクトル係数の量子化のためには、均一の量子化器が使用される。そのため、復号器において、スペクトルデータのノイズレス復号化の後で、逆の量子化は不要となる。
2. フィルタバンクとブロック切替
2.1 ツールの説明
信号の時間/周波数表現は、フィルタバンクモジュールへと伝送されることで、時間ドメインへとマッピングされる。このモジュールは、逆の変形離散コサイン変換(IMDCT)に加え、あるウインドウとあるオーバーラップ−加算の関数を含む。フィルタバンクの時間/周波数分解能を入力信号の特性へと適合させるために、ブロック切替ツールも採用されている。Nはウインドウ長を表し、ここで、Nはwindow_sequence(サブクローズ1.1を参照)の関数である。各チャネルのために、N/2個の時間−周波数値Xi,k がN個の時間ドメイン値xi,n へとIMDCTを介して変換される。ウインドウ関数を適用した後に、各チャネルについて、zi,n シーケンスの前半が、前のブロックのウインドウ化済シーケンスz(i-1),n の後半に対して加算され、各チャネルのための出力サンプルouti,nが再構築される。
2.2 定義
window_sequence … 2ビットであり、どのウインドウシーケンス(即ちブロックサイズ)が使用されるかを示す。
window_shape … 1ビットであり、どのウインドウ関数が選択されたかを示す。
図13cは8個のwindow_sequence(即ち、ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, STOP_1152_SEQUENCE, LPD_START_SEQUENCE, STOP_START_1152_SEQUENCE)を示す。
以下においては、LPD_SEQUENCEは、所謂線形予測ドメイン符号化(セクション1.3参照)の中の、許可された全てのウインドウ/符号化モードの組合せを指している。周波数ドメインで符号化済のフレームを復号化する上で、後続のフレームがLPドメインの符号化モードで符号化されたか否かを知ることだけでも重要であり、この点はあるLPD_SEQUENCEによって表現される。しかし、そのLPD_SEQUENCE内の正確な構造については、そのLPドメイン符号化済フレームを復号化するときに考慮される。
2.3 復号化プロセス
2.3.1 IMDCT(逆の変形離散コサイン変換)
IMDCTの分析的な表現を次の式で示す。
Figure 0005555707
ここで、n=サンプル指数
i=ウインドウ指数
k=スペクトル係数の指数
N=window_sequence値に基づくウインドウ長
n0=(N/2+1)/2である。
逆変換のための合成ウインドウ長Nは、シンタクス要素window_sequenceとそのアルゴリズムのコンテクストとの関数である。それは以下のように定義される。
ウインドウ長2304の場合:
Figure 0005555707
ウインドウ長2048の場合:
Figure 0005555707
有意なブロック遷移は以下の通りである。
Figure 0005555707
2.3.2 ウインドウ化とブロック切替
window_sequence と window_shape の要素に依存して、様々な変換ウインドウが使用される。以下に示すような半分のウインドウの組合せにより、可能な全てのwindow_sequenceが提供される。
window_shape == 1 に対しては、ウインドウ係数は次のようなKaiser - Bessel derived (KBD)ウインドウにより与えられる。
Figure 0005555707
ここで、W’はKaiser _ Bessel のカーネル関数であり、非特許文献9も参考となるが、以下のように定義される。
Figure 0005555707
他の方法として、window_shape == 0のとき、サインウインドウは以下のように使用される。
Figure 0005555707
ウインドウ長Nは、上記KBD及び上記サインウインドウについて、2048(1920)又は256(240)になりうる。STOP_1152_SEQUENCE及びSTOP_START_1152_SEQUENCEの場合には、Nはやはり2048又は256になり得るが、ウインドウ勾配は類似するものの、フラットトップ領域はより長くなる。
LPD_START_SEQUENCEの場合にのみ、ウインドウの右側の部分は64個のサンプルのサインウインドウである。
取得可能なウインドウのシーケンスをどのように取得するかについては、このサブクローズの以下に記載するa)〜h)の項目にて説明する。
あらゆる種類のwindow_sequencesについて、第一変換ウインドウの左半分のwindow_shapeは、前のブロックのウインドウ形状によって決定される。以下の式が、この事実を示す:
Figure 0005555707
ここで、window_shape_previous_blockは、前のブロック(i-1)のwindow_shapeを示す。
復号化されるべき第一のraw_data_block()について、当該ウインドウの左半分及び右半分のwindow_shapeは同一である。
a)ONLY_LONG_SEQUENCE:
window_sequence == ONLY_LONG_SEQUENCEは、2048(1920)の全体ウインドウ長N_lを持つ、1つのLONG_WINDOWに等しい。
Window_shape == 1については、ONLY_LONG_SEQUENCEのためのウインドウは以下のように与えられる:
Figure 0005555707
もしwindow_shape == 0であれば、ONLY_LONG_SEQUENCEのためのウインドウは以下のように記述できる:
Figure 0005555707
ウインドウ化の後、時間ドメイン値(zi,n) は以下のように表現できる。
i,n=W(n)・Xi,n
b)LONG_START_SEQUENCE:
LONG_START_SEQUENCEは、ONLY_LONG_SEQUCEからEIGHT_SHORT_SEQUENCEへのブロック変換のための、正しいオーバーラップ及び加算を得るために必要である。
ウインドウ長N_lとN_sとは2048(1920)と256(240)とにそれぞれ設定されている。
window_shape == 1の場合には、LONG_START_SEQUENCEのためのウインドウは以下の式で与えられる:
Figure 0005555707
window_shape == 0の場合には、LONG_START_SEQUENCEのためのウインドウは以下のようになる:
Figure 0005555707
ウインドウ化された時間ドメイン値は、上記項目a)で説明した式を使って計算しても良い。
c)EIGHT_SHORT
window_sequence == EIGHT_SHORT は、それぞれが256(240)の長さN_sを持つ、8個のオーバーラップ及び加算されたSHORT_WINDOWsを含む。先頭の0と後続の0とを含むwindow_sequenceの全体の長さは2048(1920)である。8個の短いブロックそれぞれは、最初は別々にウインドウ化される。短いブロックの番号は、変数j = 0,…, M−1(M=N_l/N_s) により指標化される。
前のブロックのwindow_shapeは、8個の短いブロック(W0(n)) の1番目にのみ影響する。window_shape == 1の場合には、ウインドウ関数は以下のように与えられても良い:
Figure 0005555707
他に、window_shape == 0の場合には、ウインドウ関数は以下のように記述できる:
Figure 0005555707
Figure 0005555707
EIGHT_SHORT window_sequenceの間のオーバーラオップ及び加算は、ウインドウ化された時間ドメイン値zi,n という結果となるが、以下のように記述できる:
Figure 0005555707
d)LONG_STOP_SEQUENCE
このwindow_sequenceはEIGHT_SHORT_SEQUENCEからONLY_LONG_SEQUENCEへの戻り切替を実行するために必要である。
window_shape == 1の場合には、LONG_STOP_SEQUENCEのためのウインドウは以下のように与えられる:
Figure 0005555707
window_shape ==0の場合には、LONG_START_SEQUENCEのためのウインドウは以下により決定される:
Figure 0005555707
ウインドウ化された時間ドメイン値は、項目a)で説明した式によって計算しても良い。
e)STOP_START_SEQUENCE:
STOP_START_SEQUENCEは、ONLY_LONG_SEQUENCEだけが必要な場合に、EIGHT_SHORT_SEQUENCEからEIGHT_SHORT SEQUENCEへのブロック変換のための正しいオーバーラップ及び加算を得るために必要となる。
ウインドウ長N_l及びN_sは、それぞれ2048(1920)及び256(240)に設定される。
window_shape == 1の場合には、STOP_START_SEQUENCEのためのウインドウは以下のように与えられる:
Figure 0005555707
window_shape == 0の場合には、STOP_START_SEQUENCEのためのウインドウは以下のようにになる:
Figure 0005555707
ウインドウ化された時間ドメイン値は、a)で説明した式によって計算しても良い。
f)LPD_START_SEQUENCE:
LPD_START_SEQUENCEは、ONLY_LONG_SEQUENCEからLPD_SEQUENCEへのブロック変換のための正しいオーバーラップ及び加算を得るために必要となる。
ウインドウ長N_l及びN_sは、それぞれ2048(1920)及び256(240)に設定される。
window_shape == 1の場合には、LPD_START_SEQUECEのためのウインドウは、以下のように与えられる:
Figure 0005555707
window_shape == 0の場合には、LPD_START_SEQUENCEのためのウインドウは次のようになる:
Figure 0005555707
ウインドウ化された時間ドメイン値は、項目a)で上述した式を用いて計算されても良い。
g)STOP_1152_SEQUENCE:
STOP_1152_SEQUENCEは、LPD_SEQUENCEからONLY_LONG_SEQUENCEへのブロック変換のための、正しいオーバーラップ及び加算を得るために必要となる。
ウインドウ長N_l及びN_sは、それぞれ2048(1920)及び256(240)に設定される。
window_shape == 1の場合には、STOP_1152_SEQUENCEのためのウインドウは以下のように与えられる:
Figure 0005555707
window_shape == 0の場合には、STOP_1152_SEQUENCEのためのウインドウは以下のように見える:
Figure 0005555707
ウインドウ化された時間ドメイン値は、項目a)に上述した式を用いて計算されても良い。
h)STOP_START_1152_SEQUENCE:
STOP_START_1152_SEQEUNCEは、ONLY_LONG_SEQUENCEだけが必要な場合に、LPD_SEQUENCEからEIGHT_SHORT_SQUENCEへのブロック変換のために、正しいオーバーラップと加算を得るために必要となる。
ウインドウ長N_l及びN_sは、それぞれ2048(1920)及び256(240)に設定される。
window_shape == 1の場合には、STOP_START_SEQUENCEのためのウインドウは以下のように与えられる:
Figure 0005555707
window_shape == 0の場合には、STOP_START_SEQUENCEのためのウインドウは以下のようになる:
Figure 0005555707
ウインドウ化された時間ドメイン値は、項目a)に上述した式を用いて計算されても良い。
2.3.3. 前のウインドウシーケンスとのオーバーラップ及び加算
EIGHT_SHORT window_sequnceの中のオーバーラップ及び加算とは別に、各window_sequenceの第1(左側)部分は、前のwindow_sequenceの第2(右側)部分にオーバーラップ及び加算され、その結果として最終時間ドメイン値outi,nをもたらす。この操作を数学的に表現すると、以下のようになる。
ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, LPD_START_SEQUENCEの場合には、以下のようになる:
Figure 0005555707
STOP_1152_SEQUENCE、STOP_START_1152_SEQUENCEの場合には以下のようになる:
Figure 0005555707
LPD_START_SEQUENCEの場合には、次のシーケンスはLPD_SEQUENCEである。良好なオーバーラップ及び加算を得るために、あるSIN又はKBDウインドウがLPD_SEQUENCEの左側部分に適用される。
Figure 0005555707
ここで、N=128である。
STOP_1152_SEQUENCEとSTOP_START_1152_SEQUENCEの場合には、前のシーケンスはLPD_SEQUENCEである。良好なオーバーラップ及び加算を得るために、あるTDACウインドウがLPD_SEQUENCEの左側部分に適用される。
Figure 0005555707
3. IMDT
サブクローズ2.3.1を参照。
3.1 ウインドウ化及びブロック切り替え
window_shapeの要素に依存して、オーバーサンプルリングされた様々な変換ウインドウプロトタイプが使用され、オーバーサンプルリングされたウインドウの長さは以下のようになる。
Figure 0005555707
window_shape == 1の場合には、ウインドウ係数は、Kaiser - Bessel derived(KBD)ウインドウにより以下のように与えられる:
Figure 0005555707
ここで、Kaiser - Besselカーネルウインドウ関数であるW’は以下のように定義されるが、この点に関しては非特許文献9も併せて参照されたい。
Figure 0005555707
他の例として、window_shape == 0の場合には、あるサインウインドウが以下のように使用される:
Figure 0005555707
Window_sequenceのすべての種類において、左側のウインドウ部分のために使用されるプロトタイプは、前のブロックのウインドウ形状によって決定される。以下の式はこの事実を表す:
Figure 0005555707
同様に、右側のウインドウ形状のためのプロトタイプは、以下の式によって決定される:
Figure 0005555707
変換長は既に決定済であるため、EIGHT_SHORT_SEQUENCEとその他すべてとを区別するだけで良い。
a)EIGHT SHORT SEQUENCE:
以下に示すc-code状の部分は、あるEIGHT_SHORT_SEQUENCEのウインドウ化及び内部のオーバーラップ−加算を記述する:
tw_windowing_short(X[][],z],first_pos,last_pos,warpe_trans_len_left,warped_trans_len_right,left_window_shape[],right_window_shape[]){

offset = n_long _ 4*n_short _ n_short/2;

tr_scale_1 = 0.5*n_long/warped_trans_len_left*os_factor_win;
tr_pos_l = warped_trans_len_left+(first_pos-n_long/2)+0.5)*tr_scale_l;
tr_scale_r = 8*os_factor_win;
tr_pos_r = tr_scale_r/2;

for ( i = 0 ; i < n_short ; i++ ) {
z[i] = X[0][i];
}

for(i=0;i<first_pos;i++)
z[i] = 0.;

for(i=n_long-1-first_pos;i>=first_pos;i--) {
z[i] *= left_window_shape[floor(tr_pos_l)];
tr_pos_l += tr_scale_l;
}

for(i=0;i<n_short;i++) {
z[offset+i+n_short]=
X[0][i+n_short]*right_window_shape[floor(tr_pos_r)];
tr_pos_r += tr_scale_r;
}

offset += n_short;

for ( k = 1 ; k < 7 ; k++ ) {
tr_scale_l = n_short*os_factor_win;
tr_pos_l = tr_scale_l/2;
tr_pos_r = os_factor_win*n_long-tr_pos_l;
for ( i = 0 ; i < n_short ; i++ ) {
z[i + offset] += X[k][i]*right_window_shape[floor(tr_pos_r)];
z[offset + n_short + i] =
X[k][n_short + i]*right_window_shape[floor(tr_pos_l)];
tr_pos_l += tr_scale_l;
tr_pos_r -= tr_scale_l;
}
offset += n_short;
}

tr_scale_l = n_short*os_factor_win;
tr_pos_l = tr_scale_l/2;

for ( i = n_short - 1 ; i >= 0 ; i-- ) {
z[i + offset] += X[7][i]*right_window_shape[(int) floor(tr_pos_l)];
tr_pos_l += tr_scale_l;
}

for ( i = 0 ; i < n_short ; i++ ) {
z[offset + n_short + i] = X[7][n_short + i];
}

tr_scale_r = 0.5*n_long/warpedTransLenRight*os_factor_win;
tr_pos_r = 0.5*tr_scale_r+.5;

tr_pos_r = (1.5*n_long-(float)wEnd-0.5+warpedTransLenRight)*tr_scale_r;
for(i=3*n_long-1-last_pos ;i<=wEnd;i++) {
z[i] *= right_window_shape[floor(tr_pos_r)];
tr_pos_r += tr_scale_r;
}

for(i=lsat_pos+1;i<2*n_long;i++)
z[i] = 0.;
b)その他すべて:

tw_windowing_long(X[][],z[],first_pos,last_pos,warpe_trans_len_left,warped_trans_len_right,left_window_shape[],right_window_shape[]){

for(i=0;i<first_pos;i++)
z[i] = 0.;
for(i=last_pos+1;i<N;i++)
z[i] = 0.;

tr_scale = 0.5*n_long/warped_trans_len_left*os_factor_win;
tr_pos = (warped_trans_len_left+first_pos-N/4)+0.5)*tr_scale;

for(i=N/2-1-first_pos;i>=first_pos;i--) {
z[i] = X[0][i]*left_window_shape[floor(tr_pos)]);
tr_pos += tr_scale;
}

tr_scale = 0.5*n_long/warped_trans_len_right*os_factor_win;
tr_pos = (3*N/4-last_pos-0.5+warped_trans_len_right)*tr_scale;

for(i=3*N/2-1-last_pos;i<=last_pos;i++) {
z[i] = X[0][i]*right_window_shape[floor(tr_pos)]);
tr_pos += tr_scale;
}
}
4.MDCTベースのTCX
4.1 ツールの説明
上記core_modeが1に等しく、3つのTCXモードのうち1つ以上が“線形予測ドメイン”符号化として選択されたとき、即ちmode[]の4つのアレイエントリのうち1つが0より大きいとき、MDCTベースのTCXツールが使用される。MDCTベースのTCXは、量子化されたスペクトル係数を算術復号器から受信する。量子化された係数は、まずコンフォートノイズによって完成された後、逆MDCT変換が適用され、時間ドメインの重み付き合成信号を得るために、次に重み付け合成LPCフィルタへと送られる。
4.2 定義
lg 算術符号器から出力された、量子化済スペクトル係数の数
noise_factor ノイズレベルの量子化指標
noise level 再構築されたスペクトル中に注入されたノイズのレベル
noise[] 生成されたノイズのベクトル
global_gain 再スケーリングゲインの量子化指標
g 再スケーリングゲイン
rms 合成された時間ドメイン信号x[]の平均二乗根
x[] 合成された時間ドメイン信号
4.3 復号化のプロセス
MDCTベースのTCXは、算術復号器からいくつかの量子化されたスペクトル係数lgを要求し、このlgはmod[]とlast_lpd_mode値とによって決定される。これら2つの値は、逆MDCT内に適用されるウインドウ長及び形状をも定義する。ウインドウは3つの部分、即ちL個のサンプルからなる左側のオーバーラップ部分と、M個のサンプルの1からなる中央部分と、R個のサンプルからなる右側のオーバーラップ部分とから構成される。次の表11又は図14fに対応して図14gで示したように、2*lgの長さを持つ1つのMDCTウインドウを得るために、ZL個のゼロが左側部分に、ZR個のゼロが右側部分に加算される。
Figure 0005555707
MDCTウインドウは以下のように与えられる。
Figure 0005555707
量子化されたスペクトル係数quant[]は、算術復号器によってもたらされたものであるが、コンフォートノイズによって完成されている。注入されたノイズのレベルは、復号化されたnoise_factorによって以下のように決定される:
noise_level = 0.0625*(8-noise_factor)
ノイズベクトルnoise[]は、次に、−1又は+1の値を無作為にもたらすあるランダム関数random_sign()を使用して計算される。
noise[i] = random_sign()*noise_level;
quant[]とnoise[]のベクトルは、再構築されたスペクトル係数ベクトルr[]を形成するために、quant[]内における8個の連続したゼロのランがnoise[]の成分によって置き換えられるという方法により、結合される。8個の非ゼロのランは、以下の式に従って検出される:
Figure 0005555707
再構築されたスペクトルは、以下のようにして取得する。
Figure 0005555707
逆MDCTを適用する前に、あるスペクトル逆シェーピングが以下のステップに従って適用される。
1. スペクトルの第1四半の各8次元ブロックのために、指標mにおける8次元ブロックEm のエネルギーを計算する。
2. Rm=sqrt(Em/EI)の割合を計算する。 ここで、Iは全てのEmの最大値を持つブロックの指標である。
3. Rm<0.1のときは、Rm=0.1に設定する。
4. Rm<Rm-1のときは、Rm=Rm-1に設定する。
スペクトルの第1四半に属する各8次元ブロックは、次にファクターRmによって乗算される。
再構築されたスペクトルは、ある逆MDCTへと送られる。ウインドウ化されていない出力信号x[]は、ゲインgによって再スケールされる。このゲインgは、次式のように、復号化されたglobal_gain指標の逆量子化によって得られる。
Figure 0005555707
ここで、rmsは以下のように計算される:
Figure 0005555707
上記再スケールされた時間ドメイン合成信号は、以下と等しくなる:
Figure 0005555707
再スケーリングの後で、ウインドウ化及びオーバーラップ加算が適用される。
再構築されたTCX目標x(n)は、次に、ゼロ状態の逆重み付き合成フィルタ
Figure 0005555707
を介して濾波され、合成フィルタに適用されるべき励振信号が発見される。この濾波にはサブフレーム毎の補間済LPフィルタが使用されることに留意すべきである。励振が一旦決定すると、上述したように、励振を合成フィルタ
Figure 0005555707
を介して濾波し、次にフィルタ1/(1−0.68z-1)を介した濾波により逆強化することで、信号が再構築される。
ACELP適応型のコードブックを更新し、後続のフレーム内でTCXからACELPへの切替を可能にするためにも、励振が必要であることに留意すべきである。また、TCX合成の長さが、TCXフレーム長(オーバーラップは除く)によって付与されることにも留意すべきである。このTCXフレーム長は、それぞれ1,2又は3を持つmod[]のための256、512又は1024個のサンプルである。
標準とする参考文献
[1]非特許文献10
[2]非特許文献11
[3]非特許文献12
[4]非特許文献13
[5]非特許文献9
[6]非特許文献14
[7]非特許文献15
[8]非特許文献16
[9]非特許文献17
[10]非特許文献18
定義
定義は、非特許文献19及び非特許文献20において見いだすことができる。
これまでいくつかの態様を装置の文脈において説明して来たが、これらの態様は対応する方法をも表すことは明白である。そこでは、1つのブロック又は装置は、1つの方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明された態様もまた、対応するブロック、又は対応する装置の特徴若しくは項目の説明をも表している。
本発明の符号化された信号は、デジタル記憶媒体に記憶可能であり、又は、インターネットのような無線若しくは有線の伝送媒体を通じて伝送可能である。
本発明の方法の所定の実施条件に依るが、本発明の方法は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読出し可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(或いは協働できる)、デジタル記憶媒体、例えばディスク,DVD,CD,ROM,PROM,EPROM,EEPROM或いはFLASHメモリなどを使用して実行することができる。
本発明に従う幾つかの実施例は、電子的に読出し可能な制御信号を持つデータキャリアを含み、その制御信号は、この明細書に記載した方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働できるものである。
一般的に、本発明は、当該コンピュータプログラムがコンピュータ上で作動するときに、本発明の方法の1つを実行するためのプログラムコードを有する、コンピュータプログラム製品として実現されても良い。そのプログラムコードは、例えば機械読出し可能なキャリアに記憶されても良い。
本発明の他の実施例は、機械読出し可能なキャリアに記憶され、本発明の方法の1つを実行するためのコンピュータプログラムを含む。
換言すれば、本発明の方法のある実施例は、当該コンピュータプログラムがコンピュータ上で作動するときに、本発明の方法の1つを実行するためのプログラムコードを有する、コンピュータプログラムである。
本発明の方法のさらに他の実施例は、データキャリア(又はデジタル記憶媒体又はコンピュータ読出し可能な媒体)であり、その中に、本発明の方法の1つを実行するためのコンピュータプログラムを含む本発明の方法の1つを実行するためのプログラムコードを有する。
本発明の方法の別の実施例は、データストリーム又は信号のシーケンスであり、本発明の方法の1つを実行するためのコンピュータプログラムを表すものである。
本発明の他の実施例は、例えばコンピュータやプログラム可能な論理回路などの処理手段であって、本発明の方法の1つを実行するように構成されるかあるいは適合する、処理手段を含む。
本発明のさらに他の実施例は、本発明の方法の1つを実行するコンピュータプログラムがその中にインストールされた、コンピュータを含む。
幾つかの実施例においては、本発明の方法の一部或いは全ての機能を実行するために、プログラム可能な論理回路(例えば書換え可能ゲートアレイ)を使用しても良い。幾つかの実施例においては、本発明の方法の1つを実行するために、書換え可能ゲートアレイがマイクロプロセッサと協働しても良い。一般的に、本発明の方法は、任意のハードウエア装置によって実行できることが好ましい。
上述した実施例は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について、修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、以下に添付する特許請求の範囲の技術的範囲によってのみ限定されるものであり、本明細書に実施例の説明及び解説の目的で提示した具体的詳細によって限定されるものではない。

Claims (21)

  1. 時間ドメインのオーディオ信号を符号化するオーディオ符号器において、
    第1符号化アルゴリズムを使用して前記オーディオ信号を符号化し、第1符号化済信号を得る第1符号化分枝であって、前記オーディオ信号を時間ドメインからスペクトルドメインへと変換する第1変換器(410)を含む第1符号化分枝(400)と、
    前記第1符号化アルゴリズムとは異なる第2符号化アルゴリズムを使用して前記オーディオ信号を符号化し、第2符号化済信号を得る第2符号化分枝であって、前記オーディオ信号を時間ドメインからLPC(線形予測符号化)ドメインへと変換するドメイン変換器(510)と、前記ドメイン変換器(510)により変換された信号をLPCドメインからLPCスペクトルドメインへと変換する第2変換器(523)と、を含む第2符号化分枝(500)と、
    前記第1符号化分枝と前記第2符号化分枝との間で切替を実行し、入力された前記オーディオ信号のある部分について、前記第1符号化済信号又は前記第2符号化済信号のいずれかが符号器出力信号の中に存在するよう切り替えるスイッチ(200)と、
    前記オーディオ信号の前記部分を分析し、前記オーディオ信号の前記部分が前記符号器出力信号において前記第1符号化済信号として表現されるか又は前記第2符号化済信号として表現されるかを決定する信号分析器であって、前記オーディオ信号の前記部分を表現する前記第1符号化済信号又は前記第2符号化済信号が生成されるとき、前記第1変換器と前記第2変換器のそれぞれの時間/周波数分解能を可変的に決定する信号分析器(300,525)と、
    前記第1符号化済信号及び前記第2符号化済信号と、前記第1符号化済信号及び前記第2符号化済信号を示す情報と、前記第1符号化済信号を符号化するため及び前記第2符号化済信号を符号化するために適用された時間/周波数分解能を示す情報と、を含む符号器出力信号を生成するための出力インターフェイス(800)と、
    を備えるオーディオ符号器。
  2. 請求項1に記載のオーディオ符号器であって、
    前記信号分析器(300,525)は、前記オーディオ信号の前記部分をスピーチ状のオーディオ信号又は音楽状のオーディオ信号として分類し、且つ、音楽信号の場合には前記第1変換器(410)の時間/周波数分解能を決定するために過渡の検出を実行し、又は前記第2変換器(523)の時間/周波数分解能を決定するために合成による分析を実行することを特徴とする、オーディオ符号器。
  3. 請求項1又は2に記載のオーディオ符号器であって、
    前記第1変換器(410)と前記第2変換器(523)とは、可変的なウインドウサイズを持つウインドウ関数と可変的な変換長を持つ変換関数とを含む可変的なウインドウ化変換処理器を備え、
    前記信号分析器(300525)は、その信号分析に基づいて、前記ウインドウサイズ及び/又は前記変換長を制御することを特徴とする、オーディオ符号器。
  4. 請求項1乃至3のいずれか1項に記載のオーディオ符号器であって、
    前記第2符号化分枝は、前記ドメイン変換器(510)により決定されたLPCドメインでオーディオ信号を処理する第1処理分枝(522)と、前記第2変換器(523)を有する第2処理分枝(523,524)と、を含み、
    前記信号分析器は、前記オーディオ信号の前記部分をサブ部分のシーケンスへとサブ分割し、且つ前記第2処理分枝によって処理されたサブ部分の位置に対する前記第1処理分枝によって処理されたサブ部分の位置に依存して、前記第2変換器(523)の時間/周波数分解能を決定することを特徴とする、オーディオ符号器。
  5. 請求項4に記載のオーディオ符号器であって、
    前記第1処理分枝はACELP符号器(526)を含み、
    前記第2処理分枝はMDCT−TCX処理デバイス(527)を含み、
    前記信号分析器(300525)は、前記第2変換器の時間分解能を、1つのサブ部分の長さにより決定された高い値へと設定するか、又はそのサブ部分の長さに1よりも大きい整数値を乗算した長さにより決定されたより低い値へと設定することを特徴とする、オーディオ符号器。
  6. 請求項1乃至5のいずれか1項に記載のオーディオ符号器であって、
    前記信号分析器(300525)は、オーディオサンプルの複数の同一サイズのブロックをカバーする一定のラスタの中で信号分類を決定し、前記オーディオ信号に依存して1つのブロックを可変的な個数のサブブロックへと分割し、そのサブブロックの長さが前記第1変換器の時間/周波数分解能又は前記第2変換器の時間/周波数分解能を決定することを特徴とする、オーディオ符号器。
  7. 請求項1乃至6のいずれか1項に記載のオーディオ符号器であって、
    前記信号分析器(300525)は前記第1変換器の時間/周波数分解能を、
    2304,2048,256,1920,2160,240のサンプルの内の少なくとも2つである複数の異なるウインドウ長から選択することで決定するか、若しくは
    各変換ブロックについて1152,1024,1080,960,128,120の係数からなるグループの内の少なくとも2つを含む複数の異なる変換長を使用し、又は、
    前記信号分析器(300525)は前記第2変換器の時間/周波数分解能を、
    640,1152,2304,512,1024,2048のサンプルの内の少なくとも2つである複数の異なるウインドウ長の中の1つとして決定するか、若しくは
    各変換ブロックについて320,576,1152,256,512,1024のスペクトル係数からなるグループの内の少なくとも2つを含む複数の異なる変換長を使用することを特徴とする、オーディオ符号器。
  8. 請求項1乃至7のいずれか1項に記載のオーディオ符号器であって、
    前記第2符号化分枝は、
    オーディオ信号を処理する第1処理分枝(522)と、
    前記第2変換器を含む第2処理分枝(523,524)と、
    前記第1処理分枝(522)と第2処理分枝(523,524)との間で切替を実行し、前記第2符号化分枝に入力された前記オーディオ信号の部分について、第1処理済信号又は第2処理済信号のいずれかが前記第2符号化済信号の中に存在するよう切り替える追加的スイッチ(521)と、
    を備えることを特徴とするオーディオ符号器。
  9. 時間ドメインのオーディオ信号を符号化する方法において、
    第1符号化分枝(400)内で第1符号化アルゴリズムを使用してオーディオ信号を符号化し、第1符号化済信号を得るステップであって、前記第1符号化分枝は前記オーディオ信号を時間ドメインからスペクトルドメインへと変換する第1変換器(410)を含むステップと、
    第2符号化分枝(500)内で前記第1符号化アルゴリズムとは異なる第2符号化アルゴリズムを使用してオーディオ信号を符号化し、第2符号化済信号を得るステップであって、前記第2符号化分枝は、前記オーディオ信号を時間ドメインからLPC(線形予測符号化)ドメインへと変換するドメイン変換器(510)と、前記ドメイン変換器(510)により変換された信号をLPCドメインからLPCスペクトルドメインへと変換する第2変換器(523)とを含むステップと、
    前記オーディオ信号のある部分について、前記第1符号化済信号又は前記第2符号化済信号のいずれかが符号器出力信号の中に存在するように、前記第1符号化分枝と前記第2符号化分枝との間で切替を実行するステップ(200)と、
    前記オーディオ信号の前記部分が前記符号器出力信号において前記第1符号化済信号として表現されるか又は前記第2符号化済信号として表現されるかを決定するために、前記オーディオ信号の前記部分を分析するステップ(300,525)と、
    前記オーディオ信号の前記部分を表現する前記第1符号化済信号又は前記第2符号化済信号が生成されるとき、前記第1変換器と前記第2変換器のそれぞれの時間/周波数分解能を可変的に決定するステップと、
    前記第1符号化済信号及び前記第2符号化済信号と、前記第1符号化済信号及び前記第2符号化済信号を示す情報と、前記第1符号化済信号を符号化するため及び前記第2符号化済信号を符号化するために適用された時間/周波数分解能を示す情報と、を含む符号器出力信号を生成するステップ(800)と、
    を備える方法。
  10. 符号化された信号を復号化するオーディオ復号器であって、前記符号化された信号は、スペクトルドメインの第1符号化済信号と、LPC(線形予測符号化)スペクトルドメインの第2符号化済信号と、前記第1符号化済信号及び前記第2符号化済信号を示す情報と、前記第1符号化済信号及び前記第2符号化済信号を復号化するために使用される時間/周波数分解能を示す情報とを含む、オーディオ復号器において、
    制御可能な第1周波数/時間変換器(440)を使用して前記第1符号化済信号を復号化し、第1復号化済信号を取得する第1復号化分枝であって、前記第1周波数/時間変換器(440)は前記第1符号化済信号のための前記時間/周波数分解能を示す情報を用いて前記第1符号化済信号をスペクトルドメインから時間ドメインへ変換する、第1復号化分枝(431,440)と、
    制御可能な第2周波数/時間変換器(534)を使用して前記第2符号化済信号を復号化し、第2復号化済信号を取得する第2復号化分枝であって、前記第2周波数/時間変換器(534)は前記第2符号化済信号のための前記時間/周波数分解能を示す情報を用いて前記第2符号化済信号をLPCスペクトルドメインからLPCドメインへ変換する、第2復号化分枝と、
    前記時間/周波数分解能を示す情報を使用して、前記第1周波数/時間変換器(440)と前記第2周波数/時間変換器(534)とを制御する制御器(990)と、
    前記第2復号化済信号をLPCドメインから時間ドメインへ変換して合成信号を生成する、ドメイン変換器(540)と、
    前記第1復号化済信号と前記合成信号とを結合し、復号化されたオーディオ信号を取得する結合器(600)と、
    を備えることを特徴とするオーディオ復号器。
  11. 請求項10に記載のオーディオ復号器であって、前記制御器(990)は、
    前記第1周波数/時間変換器(440)については、前記時間/周波数分解能が、
    2304,2048,256,1920,2160,240のサンプルの内の少なくとも2つである複数の異なるウインドウ長から選択されるか、若しくは
    各変換ブロックについて1152,1024,1080,960,128,120の係数からなるグループの内の少なくとも2つを含む複数の異なる変換長から選択されるように制御し、又は、
    前記第2周波数/時間変換器(534)については、前記時間/周波数分解能が、
    640,1152,2304,512,1024,2048のサンプルの内の少なくとも2つである複数の異なるウインドウ長の中の1つとして選択されるか、若しくは
    各変換ブロックについて320,576,1152,256,512,1024のスペクトル係数からなるグループの内の少なくとも2つを含む複数の異なる変換長から選択されるように制御することを特徴とする、オーディオ復号器。
  12. 請求項10又は11に記載のオーディオ復号器であって、
    前記第2復号化分枝は、前記符号化された信号の中に追加的に含まれた第1処理済信号を逆処理して第1逆処理済信号を取得する第1逆処理分枝(531)を備え、
    前記制御可能な第2周波数/時間変換器(534)は、前記第1逆処理済信号のドメインと同じドメインで前記第2符号化済信号を逆処理して第2逆処理済信号を取得する第2逆処理分枝の中に配置され、
    前記第2復号化分枝は、前記第1逆処理済信号と前記第2逆処理済信号とを結合して結合済信号を取得する追加的な結合器(532)をさらに備え、
    前記結合済信号は前記結合器(600)へと入力されることを特徴とする、オーディオ復号器。
  13. 請求項10乃至12のいずれか1項に記載のオーディオ復号器であって、
    前記第1周波数/時間変換器(440)と前記第2周波数/時間変換器とは、前記第1符号化済信号と前記第2符号化済信号との中に含まれた時間ドメイン・エイリアシングをキャンセルするためのオーバーラップ/加算ユニット(440c)を有する時間ドメイン・エイリアシング・キャンセル変換器であることを特徴とする、オーディオ復号器。
  14. 請求項10乃至13のいずれか1項に記載のオーディオ復号器であって、
    前記符号化された信号は、符号化された信号が前記第1符号化済信号であるか前記第2符号化済信号であるかを示す符号化モード情報を含み、
    前記符号化モード情報を読み取って、前記符号化された信号を前記第1復号化分枝へ送るか又は前記第2復号化分枝へ送るかを決定する、入力インターフェイス(900)をさらに含むことを特徴とする、オーディオ復号器。
  15. 請求項10乃至14のいずれか1項に記載のオーディオ復号器であって、
    前記第1符号化済信号は算術的に符号化されたものであり、前記第1復号化分枝は算術的復号器を含むことを特徴とする、オーディオ復号器。
  16. 請求項10乃至15のいずれか1項に記載のオーディオ復号器であって、
    前記第1復号化分枝は、前記第1符号化済信号を生成する時に適用された均一な量子化の結果をキャンセルするための均一な逆量子化特性を有する逆量子化器を備え、
    前記第2復号化分枝は、前記第2符号化済信号を生成する時に適用された均一な量子化の結果をキャンセルするための逆量子化器を含まない、ことを特徴とする、オーディオ復号器。
  17. 請求項10乃至16のいずれか1項に記載のオーディオ復号器であって、
    前記制御器(990)は、複数の使用可能な異なる離散的周波数/時間分解能の内の1つの離散的周波数/時間分解能を適用することにより、前記第1周波数/時間変換器と前記第2周波数/時間変換器とをそれぞれ制御し、前記第2周波数/時間変換器のための前記使用可能な異なる周波数/時間分解能の数は、前記第1周波数/時間変換器のための前記使用可能な異なる周波数/時間分解能の数より大きいことを特徴とする、オーディオ復号器。
  18. 請求項10乃至17のいずれか1項に記載のオーディオ復号器であって、
    前記ドメイン変換器は、LPCフィルタ情報を使用して合成信号を生成するLPC合成処理器(540)であり、前記LPCフィルタ情報は前記符号化された信号に含まれていることを特徴とする、オーディオ復号器。
  19. 符号化された信号をオーディオ復号化する方法であって、前記符号化された信号は、スペクトルドメインの第1符号化済信号と、LPC(線形予測符号化)スペクトルドメインの第2符号化済信号と、前記第1符号化済信号及び前記第2符号化済信号を示す情報と、前記第1符号化済信号及び前記第2符号化済信号を復号化するために使用される時間/周波数分解能情報とを含む、方法において、
    制御可能な第1周波数/時間変換器(440)を有する第1復号化分枝(431,440)により、前記第1符号化済信号を復号化し、第1復号化済信号を取得するステップであって、前記第1周波数/時間変換器(440)は前記第1符号化済信号のための前記時間/周波数分解能情報を用いて前記第1符号化済信号をスペクトルドメインから時間ドメインへ変換する、ステップと、
    制御可能な第2周波数/時間変換器(534)を有する第2復号化分枝により、前記第2符号化済信号を復号化し、第2復号化済信号を取得するステップであって、前記第2周波数/時間変換器(534)は前記第2符号化済信号のための時間/周波数分解能情報を用いて前記第2符号化済信号をLPCスペクトルドメインからLPCドメインへ変換する、ステップと、
    前記時間/周波数分解能情報を使用して、前記第1周波数/時間変換器(440)と前記第2周波数/時間変換器(534)とを制御するステップ(990)と、
    ドメイン変換器により、前記第2復号化済信号をLPCドメインから時間ドメインへ変換して合成信号を生成するステップ(540)と、
    前記第1復号化済信号と前記合成信号とを結合(600)し、復号化されたオーディオ信号を取得するステップと、
    を備えることを特徴とする方法。
  20. オーディオ信号を記録したコンピュータ読み取り可能な記憶媒体であって、
    前記オーディオ信号が、
    スペクトルドメインの第1符号化済信号と、
    LPC(線形予測符号化)スペクトルドメインの第2符号化済信号と、
    前記第1符号化済信号及び前記第2符号化済信号を示す情報と、
    前記第1符号化済信号を復号化するために使用される第1の時間/周波数分解能情報と、
    前記第2符号化済信号を復号化するために使用される第2の時間/周波数分解能情報と、を含む記憶媒体。
  21. コンピュータ上で作動するときに、請求項9又は19に記載された方法を実行するためのコンピュータプログラム。
JP2011530415A 2008-10-08 2009-10-07 マルチ分解能切替型のオーディオ符号化及び復号化スキーム Active JP5555707B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US10382508P 2008-10-08 2008-10-08
EP08017663 2008-10-08
US61/103,825 2008-10-08
EP08017663.9 2008-10-08
EP09002271.6 2009-02-18
EP09002271A EP2144230A1 (en) 2008-07-11 2009-02-18 Low bitrate audio encoding/decoding scheme having cascaded switches
PCT/EP2009/007205 WO2010040522A2 (en) 2008-10-08 2009-10-07 Multi-resolution switched audio encoding/decoding scheme

Publications (2)

Publication Number Publication Date
JP2012505423A JP2012505423A (ja) 2012-03-01
JP5555707B2 true JP5555707B2 (ja) 2014-07-23

Family

ID=42101010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011530415A Active JP5555707B2 (ja) 2008-10-08 2009-10-07 マルチ分解能切替型のオーディオ符号化及び復号化スキーム

Country Status (14)

Country Link
EP (2) EP2345030A2 (ja)
JP (1) JP5555707B2 (ja)
KR (3) KR20130069833A (ja)
CN (1) CN102177426B (ja)
AR (1) AR076060A1 (ja)
BR (1) BRPI0914056B1 (ja)
CA (1) CA2739736C (ja)
CO (1) CO6362072A2 (ja)
MX (1) MX2011003824A (ja)
MY (1) MY154633A (ja)
RU (1) RU2520402C2 (ja)
TW (2) TWI520128B (ja)
WO (1) WO2010040522A2 (ja)
ZA (1) ZA201102537B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023107795A1 (en) * 2021-12-06 2023-06-15 Tencent America LLC Arrangement of adaptive loop filter coefficients for fast vectorized transpositions

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011013981A2 (en) 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101379261B1 (ko) * 2009-09-17 2014-04-02 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
WO2011147950A1 (en) * 2010-05-28 2011-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-delay unified speech and audio codec
CN102934161B (zh) 2010-06-14 2015-08-26 松下电器产业株式会社 音频混合编码装置以及音频混合解码装置
CN105261372B (zh) 2010-07-02 2021-07-16 杜比国际公司 自适应后置滤波器
KR101573829B1 (ko) * 2010-07-20 2015-12-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하기 위한 방법, 오디오 정보를 디코딩하기 위한 방법 및 최적화된 해시 테이블을 사용하는 컴퓨터 프로그램
KR101699898B1 (ko) 2011-02-14 2017-01-25 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 영역에서 디코딩된 오디오 신호를 처리하기 위한 방법 및 장치
TWI488176B (zh) * 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
TR201908598T4 (tr) 2011-02-14 2019-07-22 Fraunhofer Ges Forschung Bir ses sinyalinin hizalı bir ileriye dönük kısımdan faydalanılarak enkode edilmesi için cihaz ve yöntem.
AU2012217162B2 (en) 2011-02-14 2015-11-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise generation in audio codecs
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
CA2827277C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Linear prediction based coding scheme using spectral domain noise shaping
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
JP5800915B2 (ja) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のトラックのパルス位置の符号化および復号化
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
RU2606552C2 (ru) 2011-04-21 2017-01-10 Самсунг Электроникс Ко., Лтд. Устройство для квантования коэффициентов кодирования с линейным предсказанием, устройство кодирования звука, устройство для деквантования коэффициентов кодирования с линейным предсказанием, устройство декодирования звука и электронное устройство для этого
CN105719654B (zh) * 2011-04-21 2019-11-05 三星电子株式会社 用于语音信号或音频信号的解码设备和方法及量化设备
BR112013033900B1 (pt) * 2011-06-30 2022-03-15 Samsung Electronics Co., Ltd Método para gerar um sinal estendido de largura de banda para decodificação de áudio
CN106910509B (zh) * 2011-11-03 2020-08-18 沃伊斯亚吉公司 用于修正通用音频合成的设备及其方法
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
JP6126006B2 (ja) * 2012-05-11 2017-05-10 パナソニック株式会社 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
CN107958670B (zh) 2012-11-13 2021-11-19 三星电子株式会社 用于确定编码模式的设备以及音频编码设备
SG11201504899XA (en) 2012-12-21 2015-07-30 Fraunhofer Ges Forschung Comfort noise addition for modeling background noise at low bit-rates
ES2588156T3 (es) 2012-12-21 2016-10-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generación de ruido de confort con alta resolución espectro-temporal en transmisión discontinua de señales de audio
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
PL2936484T3 (pl) * 2013-01-29 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do przetwarzania zakodowanego sygnału i koder i sposób do generowania zakodowanego sygnału
MY185164A (en) 2013-01-29 2021-04-30 Fraunhofer Ges Forschung Noise filling concept
ES2732560T3 (es) 2013-01-29 2019-11-25 Fraunhofer Ges Forschung Llenado de ruido sin información secundaria para codificadores tipo celp
CN105229738B (zh) 2013-01-29 2019-07-26 弗劳恩霍夫应用研究促进协会 用于使用能量限制操作产生频率增强信号的装置及方法
PL2951815T3 (pl) * 2013-01-29 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodery audio, dekodery audio, systemy, sposoby i programy komputerowe wykorzystujące zwiększoną rozdzielczość czasową w otoczeniu czasowym początków lub końców spółgłosek szczelinowych lub spółgłosek zwarto-szczelinowych
WO2014159898A1 (en) 2013-03-29 2014-10-02 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
PL3005350T3 (pl) 2013-05-24 2017-09-29 Dolby International Ab Koder i dekoder audio
EP2830058A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
WO2016052191A1 (ja) * 2014-09-30 2016-04-07 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
KR102398124B1 (ko) 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US10134412B2 (en) * 2015-09-03 2018-11-20 Shure Acquisition Holdings, Inc. Multiresolution coding and modulation system
EP3353778B1 (en) 2015-09-25 2023-07-05 VoiceAge Corporation Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels
EP3182411A1 (en) 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
CN105632542B (zh) * 2015-12-23 2019-05-28 小米科技有限责任公司 音频播放方法及装置
US9959877B2 (en) * 2016-03-18 2018-05-01 Qualcomm Incorporated Multi channel coding
ES2933287T3 (es) 2016-04-12 2023-02-03 Fraunhofer Ges Forschung Codificador de audio para codificar una señal de audio, método para codificar una señal de audio y programa informático en consideración de una región espectral del pico detectada en una banda de frecuencia superior
US10362423B2 (en) * 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
CN107404625B (zh) * 2017-07-18 2020-10-16 海信视像科技股份有限公司 终端的音效处理方法及装置
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11532316B2 (en) 2017-12-19 2022-12-20 Dolby International Ab Methods and apparatus systems for unified speech and audio decoding improvements
US10847172B2 (en) 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) * 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
CN113574889B (zh) * 2019-03-14 2024-01-12 北京字节跳动网络技术有限公司 环路整形信息的信令和语法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3317470B2 (ja) * 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
DE19706516C1 (de) * 1997-02-19 1998-01-15 Fraunhofer Ges Forschung Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen
RU2214047C2 (ru) * 1997-11-19 2003-10-10 Самсунг Электроникс Ко., Лтд. Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов
JP3211762B2 (ja) * 1997-12-12 2001-09-25 日本電気株式会社 音声及び音楽符号化方式
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
DE10217297A1 (de) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
US7043423B2 (en) * 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
US7424434B2 (en) * 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
US8311809B2 (en) * 2003-04-17 2012-11-13 Koninklijke Philips Electronics N.V. Converting decoded sub-band signal into a stereo signal
US20070067166A1 (en) * 2003-09-17 2007-03-22 Xingde Pan Method and device of multi-resolution vector quantilization for audio encoding and decoding
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
KR20080101872A (ko) * 2006-01-18 2008-11-21 연세대학교 산학협력단 부호화/복호화 장치 및 방법
RU2444071C2 (ru) * 2006-12-12 2012-02-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Кодер, декодер и методы кодирования и декодирования сегментов данных, представляющих собой поток данных временной области
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023107795A1 (en) * 2021-12-06 2023-06-15 Tencent America LLC Arrangement of adaptive loop filter coefficients for fast vectorized transpositions

Also Published As

Publication number Publication date
BRPI0914056A2 (pt) 2015-11-03
RU2520402C2 (ru) 2014-06-27
CA2739736C (en) 2015-12-01
CN102177426A (zh) 2011-09-07
KR101403115B1 (ko) 2014-06-27
TWI419148B (zh) 2013-12-11
EP3640941A1 (en) 2020-04-22
TW201344679A (zh) 2013-11-01
KR20130069833A (ko) 2013-06-26
KR20110081291A (ko) 2011-07-13
RU2011117699A (ru) 2012-11-10
JP2012505423A (ja) 2012-03-01
EP2345030A2 (en) 2011-07-20
BRPI0914056B1 (pt) 2019-07-02
KR20130133917A (ko) 2013-12-09
AU2009301358A8 (en) 2011-05-26
AU2009301358A1 (en) 2010-04-15
TWI520128B (zh) 2016-02-01
MY154633A (en) 2015-07-15
CA2739736A1 (en) 2010-04-15
ZA201102537B (en) 2011-12-28
AR076060A1 (es) 2011-05-18
TW201142827A (en) 2011-12-01
WO2010040522A3 (en) 2010-09-02
CN102177426B (zh) 2014-11-05
MX2011003824A (es) 2011-05-02
WO2010040522A2 (en) 2010-04-15
CO6362072A2 (es) 2012-01-20

Similar Documents

Publication Publication Date Title
JP5555707B2 (ja) マルチ分解能切替型のオーディオ符号化及び復号化スキーム
US11676611B2 (en) Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains
EP2311035B1 (en) Low bitrate audio encoding/decoding scheme with common preprocessing
EP2146344B1 (en) Audio encoding/decoding scheme having a switchable bypass
AU2009301358B2 (en) Multi-resolution switched audio encoding/decoding scheme

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130530

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140602

R150 Certificate of patent or registration of utility model

Ref document number: 5555707

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250