JP4944029B2 - オーディオデコーダおよびオーディオ信号の復号方法 - Google Patents

オーディオデコーダおよびオーディオ信号の復号方法 Download PDF

Info

Publication number
JP4944029B2
JP4944029B2 JP2007525956A JP2007525956A JP4944029B2 JP 4944029 B2 JP4944029 B2 JP 4944029B2 JP 2007525956 A JP2007525956 A JP 2007525956A JP 2007525956 A JP2007525956 A JP 2007525956A JP 4944029 B2 JP4944029 B2 JP 4944029B2
Authority
JP
Japan
Prior art keywords
frequency band
signal
channel
unit
band signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007525956A
Other languages
English (en)
Other versions
JPWO2007010785A1 (ja
Inventor
良明 高木
セン・チョン コク
武志 則松
修二 宮阪
明久 川村
耕司郎 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2007525956A priority Critical patent/JP4944029B2/ja
Publication of JPWO2007010785A1 publication Critical patent/JPWO2007010785A1/ja
Application granted granted Critical
Publication of JP4944029B2 publication Critical patent/JP4944029B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Description

本発明は、複数チャンネルの信号をダウンミックスした信号を符号化した符号化データと、それをもとのチャンネル数の信号に分離するための情報が符号化された符号化データとを用いて、元々のチャンネル数の信号に復号化するオーディオデコーダに関し、特にMPEG(Moving Picture Expert Group)オーディオにおけるスペーシャルコーデック(Spatial Audio Codec)の復号化処理に関する。
近年、MPEGオーディオ規格において、Spatial Audio Codec(空間的符号化)といわれる技術が規格化されつつある。これは、非常に少ない情報量で臨場感を示すマルチチャンネル信号を圧縮・符号化することを目的としている。例えば、既にデジタルテレビの音声方式として広く用いられているマルチチャンネルコーデックであるAAC(Advanced Audio Coding)方式が、5.1ch当り512kbpsや、384kbpsというビットレートを要するのに対し、Spatial Audio Codecでは、128kbpsや、64kbps、さらに48kbpsといった非常に少ないビットレートでマルチチャンネル信号を圧縮および符号化することを目指している(例えば、非特許文献1参照)。
図1は、従来のオーディオ装置の構成を示すブロック図である。
オーディオ装置1000は、オーディオ信号の組に対する空間音響符号化を行って符号化信号を出力するオーディオエンコーダ1100と、その符号化信号を復号化するオーディオデコーダ1200とを備えている。
オーディオエンコーダ1100は、1024サンプルや2048サンプルなどによって示されるフレーム単位でオーディオ信号(例えば、2チャンネルのオーディオ信号L,R)を処理するものであって、ダウンミックス部1110と、バイノーラルキュー検出部1120と、エンコーダ1150と、多重化部1190とを備えている。
ダウンミックス部1110は、2チャンネルのスペクトル表現されたオーディオ信号L,Rの平均をとることによって、つまり、M=(L+R)/2によって、オーディオ信号L,Rがダウンミックスされたダウンミックス信号Mを生成する。
バイノーラルキュー検出部1120は、スペクトルバンドごとに、オーディオ信号L,Rおよびダウンミックス信号Mを比較することによって、ダウンミックス信号Mをオーディオ信号L,Rに戻すためのBC情報(バイノーラルキュー)を生成する。
BC情報は、チャンネル間レベル/強度差(inter-channel level/intensity difference)を示すレベル情報IIDと、およびチャンネル間コヒーレンス/相関(inter-channel coherence/correlation)を示す相関情報ICCと、チャンネル間位相遅延差(inter-channel phase/delay difference)を示す位相情報IPDとを含む。
ここで、相関情報ICCが2つのオーディオ信号L,Rの類似性を示すのに対し、レベル情報IIDは相対的なオーディオ信号L,Rの強度を示す。一般に、レベル情報IIDは、音のバランスや定位を制御するための情報であって、相関情報ICCは、音像の幅や拡散性を制御するための情報である。これらは、共に聴き手が聴覚的情景を頭の中で構成するのを助ける空間パラメータである。
スペクトル表現されたオーディオ信号L,Rおよびダウンミックス信号Mは、「パラメータバンド」からなる通常複数のグループに区分されている。したがって、BC情報は、それぞれのパラメータバンド毎に算出される。なお、「BC情報」と「空間パラメータ」という用語はしばしば同義的に用いられる。
エンコーダ1150は、例えば、MP3(MPEG Audio Layer-3)や、AAC(Advanced Audio Coding)などによって、ダウンミックス信号Mを圧縮符号化する。
多重化部1190は、ダウンミックス信号Mと、量子化されたBC情報とを多重化することによりビットストリームを生成し、そのビットストリームを上述の符号化信号として出力する。
オーディオデコーダ1200は、逆多重化部1210と、デコーダ1220と、マルチチャンネル合成部1240とを備えている。
逆多重化部1210は、上述のビットストリームを取得し、そのビットストリームから量子化されたBC情報と、符号化されたダウンミックス信号Mとを分離して出力する。なお、逆多重化部1210は、量子化されたBC情報を逆量子化して出力する。
デコーダ1220は、符号化されたダウンミックス信号Mを復号化してマルチチャンネル合成部1240に出力する。
マルチチャンネル合成部1240は、デコーダ1220から出力されたダウンミックス信号Mと、逆多重化部1210から出力されたBC情報とを取得する。そして、マルチチャンネル合成部1240は、そのBC情報を用いて、ダウンミックス信号Mから、2つのオーディオ信号L,Rを復元する。
なお、上述では、2チャンネルのオーディオ信号を符号化して復号化する例を挙げてオーディオ装置1000を説明したが、オーディオ装置1000は、2チャンネルよりも多いチャンネルのオーディオ信号(例えば、5.1チャンネル音源を構成する、6つのチャンネルのオーディオ信号)を、符号化および復号化することもできる。
図2は、マルチチャンネル合成部1240の機能構成を示す機能ブロック図である。
マルチチャンネル合成部1240は、例えば、ダウンミックス信号Mを6つのチャンネルのオーディオ信号に分離する場合、第1分離部1241と、第2分離部1242と、第3分離部1243と、第4分離部1244と、第5分離部1245とを備える。なお、ダウンミックス信号Mは、聴取者の正面に配置されるスピーカに対する正面オーディオ信号Cと、視聴者の左前方に配置されるスピーカに対する左前オーディオ信号Lfと、視聴者の右前方に配置されるスピーカに対する右前オーディオ信号Rfと、視聴者の左横方に配置されるスピーカに対する左横オーディオ信号Lsと、視聴者の右横方に配置されるスピーカに対する右横オーディオ信号Rsと、低音出力用サブウーファースピーカに対する低域オーディオ信号LFEとがダウンミックスされて構成されている。
第1分離部1241は、ダウンミックス信号Mから第1ダウンミックス信号M1と第4ダウンミックス信号M4とを分離して出力する。第1ダウンミックス信号M1は、正面オーディオ信号Cと左前オーディオ信号Lfと右前オーディオ信号Rfと低域オーディオ信号LFEとがダウンミックスされて構成されている。第4ダウンミックス信号M4は、左横オーディオ信号Lsと右横オーディオ信号Rsとがダウンミックスされて構成されている。
第2分離部1242は、第1ダウンミックス信号M1から第2ダウンミックス信号M2と第3ダウンミックス信号M3とを分離して出力する。第2ダウンミックス信号M2は、左前オーディオ信号Lfと右前オーディオ信号Rfとがダウンミックスされて構成されている。第3ダウンミックス信号M3は、正面オーディオ信号Cと低域オーディオ信号LFEとがダウンミックスされて構成されている。
第3分離部1243は、第2ダウンミックス信号M2から左前オーディオ信号Lfと右前オーディオ信号Rfとを分離して出力する。
第4分離部1244は、第3ダウンミックス信号M3から正面オーディオ信号Cと低域オーディオ信号LFEとを分離して出力する。
第5分離部1245は、第4ダウンミックス信号M4から左横オーディオ信号Lsと右横オーディオ信号Rsとを分離して出力する。
このように、マルチチャンネル合成部1240は、マルチステージの方法によって、各分離部で1つの信号を2つの信号に分離し、単一のオーディオ信号が分離されるまで再帰的に信号の分離を繰り返す。
図3は、マルチチャンネル合成部1240の機能構成を示す他の機能ブロック図である。
マルチチャンネル合成部1240は、オールパスフィルタ1261と、演算部1262と、BCC処理部1263とを備えている。
オールパスフィルタ1261は、ダウンミックス信号Mを取得して、そのダウンミックス信号Mに対して相関性のない無相関信号Mrevを生成して出力する。ダウンミックス信号Mと無相関信号Mrevとは、それぞれを聴覚的に比較すると、「相互にインコヒーレント」であるとみなされる。また、無相関信号Mrevはダウンミックス信号Mと同じエネルギーを有し、まるで音が広がっているかのような幻覚を作り出す有限時間の残響成分を含む。
BCC処理部1263は、BC情報を取得して、そのBC情報に含まれるレベル情報IIDや相関情報ICCなどに基づいて、ミキシング係数Hijを生成して出力する。
演算部1262は、ダウンミックス信号M、無相関信号Mrev、およびミキシング係数Hijを取得して、これらを用いて(数1)に示すように演算を行い、オーディオ信号L,Rを出力する。このように、ミキシング係数Hijを用いることによって、オーディオ信号L,R間の相関の程度や、それらの信号の指向性を、意図した状態にすることができる。
Figure 0004944029
図4は、マルチチャンネル合成部1240の詳細な構成を示すブロック図である。
マルチチャンネル合成部1240は、プレマトリックス処理部1251と、ポストマトリックス処理部1252と、第1演算部1253および第2演算部1255と、無相関処理部1254と、分析フィルタバンク1256と、合成フィルタバンク1257とを備えている。なお、プレマトリックス処理部1251、ポストマトリックス処理部1252、第1演算部1253、第2演算部1255、および無相関処理部1254によって、チャンネル拡大部1270が構成されている。
分析フィルタバンク1256は、デコーダ1220から出力されたダウンミックス信号Mを取得し、そのダウンミックス信号Mの表現形式を、時間/周波数ハイブリッド表現に変換し、第1周波数帯域信号xとして出力する。なお、この分析フィルタバンク1256は第1ステージおよび第2ステージを備える。例えば、第1ステージおよび第2ステージは、QMFフィルタバンクおよびナイキストフィルタバンクである。これらのステージでは、まずQMFフィルター(第1のステージ)で複数の周波数帯域に分割し、さらにナイキストフィルター(第2のステージ)で低周波数側のサブバンドをさらに微細なサブバンドに分けることによって、低周波数サブバンドのスペクトルの分解能を高めている。
プレマトリックス処理部1251は、信号強度レベルの各チャンネルへの配分(スケーリング)を示すスケーリングファクタたる行列R1を、BC情報を用いて生成する。
例えば、プレマトリックス処理部1251は、ダウンミックス信号Mの信号強度レベルと、第1ダウンミックス信号M1、第2ダウンミックス信号M2、第3ダウンミックス信号M3および第4ダウンミックス信号M4の信号強度レベルとの比率を示すレベル情報IIDを用いて行列R1を生成する。
第1演算部1253は、分析フィルタバンク1256から出力された時間/周波数ハイブリッド表現の第1周波数帯域信号xを取得し、例えば(数2)および(数3)に示すように、その第1周波数帯域信号xと行列R1との積を算出する。そして、第1演算部1253は、その行列演算結果を示す中間信号vを出力する。つまり、第1演算部1253は、分析フィルタバンク1256から出力された時間/周波数ハイブリッド表現の第1周波数帯域信号xから、4つのダウンミックス信号M1〜M4を分離する。
Figure 0004944029
Figure 0004944029
無相関処理部1254は、図3に示すオールパスフィルタ1261としての機能を有し、中間信号vに対してオールパスフィルタ処理を施すことによって、(数4)に示すように、無相関信号wを生成して出力する。なお、無相関信号wの構成要素MrevおよびMi,revは、ダウンミックス信号M,Miに対して無相関処理が施された信号である。
Figure 0004944029
ポストマトリックス処理部1252は、残響の各チャンネルへの配分を示す行列R2を、BC情報を用いて生成する。例えば、ポストマトリックス処理部1252は、音像の幅や拡散性を示す相関情報ICCからミキシング係数Hijを導出し、そのミキシング係数Hijから構成される行列R2を生成する。
第2演算部1255は、無相関信号wと行列R2との積を算出し、その行列演算結果を示す出力信号yを出力する。つまり、第2演算部1255は、無相関信号wから、6つのオーディオ信号Lf,Rf,Ls,Rs,C,LFEを分離する。
例えば、図2に示すように、左前オーディオ信号Lfは、第2ダウンミックス信号M2から分離されるため、その左前オーディオ信号Lfの分離には、第2ダウンミックス信号M2と、それに対応する無相関信号wの構成要素M2,revとが用いられる。同様に、第2ダウンミックス信号M2は、第1ダウンミックス信号M1から分離されるため、その第2ダウンミックス信号M2の算出には、第1ダウンミックス信号M1と、それに対応する無相関信号wの構成要素M1,revとが用いられる。
したがって、左前オーディオ信号Lfは、下記の(数5)により示される。
Figure 0004944029
ここで、(数5)中のHij,Aは、第3分離部1243におけるミキシング係数であり、Hij,Dは、第2分離部1242におけるミキシング係数であり、Hij,Eは、第1分離部1241におけるミキシング係数である。(数5)に示す3つの数式は、以下の(数6)に示す一つのベクトル乗算式にまとめることができる。
Figure 0004944029
左前オーディオ信号Lf以外の他のオーディオ信号Rf,C,LFE,Ls,Rsも、上述のような行列と無相関信号wの行列との演算によって算出される。つまり、出力信号yは、下記の(数7)によって示される。
Figure 0004944029
合成フィルタバンク1257は、復元された各オーディオ信号の表現形式を、時間/周波数ハイブリッド表現から時間表現に変換し、その時間表現の複数のオーディオ信号をマルチチャンネル信号として出力する。なお、合成フィルタバンク1257は、分析フィルタバンク1256と整合するように、例えば2つのステージから構成される。また、行列R1,R2は、上述のパラメータバンドbごとに、行列R1(b),R2(b)として生成される。
図5は、オーディオデコーダ1200の構成を示す他のブロック図である。
なお、図5における二重線の矢印は複数の周波数帯域に分割された周波数帯域信号(上述の第1周波数帯域信号xおよび出力信号y)の流れを示している。
逆多重化部1210によって取得される符号化信号は、6チャンネルのオーディオ信号が2チャンネルのダウンミックス信号Mにダウンミックスされて符号化された符号化ダウンミックス信号と、量子化されたBC情報とが多重化されて構成されている。
逆多重化部1210は、その符号化信号を符号化ダウンミックス信号とBC情報に分離する。符号化ダウンミックス信号は、例えばMPEG規格AAC方式で符号化された2チャンネルの符号化データである。
デコーダ1220は、AACデコーダを用いて、その符号化ダウンミックス信号を復号化する。その結果、デコーダ1220は、2チャンネルのPCM信号(時間軸信号)であるダウンミックス信号Mを出力する。
分析フィルタバンク1256は、2つの分析フィルタ1256aを備え、各分析フィルタ1256aは、デコーダ1220から出力されたダウンミックス信号Mを第1周波数帯域信号xに変換する。
チャンネル拡大部1270は、BC情報を用いることにより、2チャンネルの第1周波数帯域信号xを6チャンネルの出力信号yに拡大する(例えば、特許文献1参照)。
合成フィルタバンク1257は、6つの合成フィルタ1257aを備え、各合成フィルタ1257aは、チャンネル拡大部1270から出力された出力信号yをPCM信号であるオーディオ信号に変換する。
図6は、オーディオデコーダ1200の構成を示す他のブロック図である。
逆多重化部1210によって取得される符号化信号は、6チャンネルのオーディオ信号が1チャンネルのダウンミックス信号Mにダウンミックスされて符号化された符号化ダウンミックス信号と、量子化されたBC情報とが多重化されて構成されている。
このような場合、デコーダ1220は、例えばAACデコーダを用いて、その符号化ダウンミックス信号を復号化する。その結果、デコーダ1220は、1チャンネルのPCM信号(時間軸信号)であるダウンミックス信号Mを出力する。
分析フィルタバンク1256は、1つの分析フィルタ1256aを備え、その分析フィルタ1256aは、デコーダ1220から出力されたダウンミックス信号Mを第1周波数帯域信号xに変換する。
チャンネル拡大部1270は、BC情報を用いることにより、1チャンネルの第1周波数帯域信号xを6チャンネルの出力信号yに拡大する。
118th AES convention, Barcelona, Spain, 2005, Convention Paper 6447. 特願2004−248989号公報
しかしながら、上記従来のオーディオデコーダでは演算量が多いために回路規模が大きくなってしまうという問題がある。
つまり、図5および図6の二重線の矢印によって示される周波数帯域信号(第1周波数帯域信号xおよび出力信号y)は、複素数で表現されているために、分析フィルタバンク1256、チャンネル拡大部1270および合成フィルタバンク1257における処理には、多大の演算量とメモリサイズが必要となる。
そこで、複素数で表現される周波数帯域信号を実数として処理することが考えられる。しかし、複素数の処理を単純に実数の処理に置き換えるとエリアジングノイズが発生することがある。つまり、特定の周波数帯域にトーン性の強い信号が存在する場合には、実数処理による合成フィルタ1257aの処理によって、隣接する周波数帯域にエリアジングノイズが発生する。したがって、各周波数帯域にトーン性の強い信号が存在するかどうかを検出して、その信号が存在する場合には、合成フィルタ1257aの処理の前にエリアジングノイズ除去処理を行うことが考えられる。
図7は、実数処理およびエリアジングノイズ除去を行うオーディオデコーダの構成を示すブロック図である。
このオーディオデコーダ1200’の分析フィルタバンク1256、チャンネル拡大部1270および合成フィルタバンク1257は、それぞれ周波数帯域信号(第1周波数帯域信号xおよび出力信号y)を実数で扱う。そして、このオーディオデコーダ1200’は、エリアジングノイズ検出部1281と6つのノイズ除去部1282とを備える。
エリアジングノイズ検出部1281は、第1周波数帯域信号xに基づいて、その信号の各周波数帯域にトーン性の強い信号が存在するか否か、つまりエリアジングノイズが発生する可能性があるか否かを検出する。
6つのノイズ除去部1282はそれぞれ、エリアジングノイズ検出部1281の検出結果に基づいて、チャンネル拡大部1270から出力される出力信号yからエリアジングノイズを除去する。
しかしながら、このようなオーディオデコーダでは、出力信号yのチャンネル数だけノイズ除去部1282が必要とされるため、複素数の処理を実数の処理に置き換えるメリットがなく、演算量が多大となって回路規模が大きくなってしまう。
そこで、本発明は、かかる問題に鑑みてなされたものであって、エリアジングノイズの発生を抑えつつ演算量を軽減したオーディオデコーダを提供することを目的とする。
上記目的を達成するために、本発明に係るオーディオデコーダは、N(N≧2)チャンネルのオーディオ信号をダウンミックスして得られるダウンミックス信号を符号化した第1の符号化データと、前記ダウンミックス信号を元のNチャンネルのオーディオ信号に復元するためのパラメータを符号化した第2の符号化データとからなるビットストリームをデコードし、Nチャンネルのオーディオ信号を生成するオーディオデコーダであって、前記第1の符号化データから、前記ダウンミックス信号に対する第1の周波数帯域信号を生成する周波数帯域信号生成手段と、前記第2の符号化データを用いて、前記周波数帯域信号生成手段で生成された第1の周波数帯域信号を、Nチャンネルのオーディオ信号に対する第2の周波数帯域信号に変換するチャンネル拡大手段と、前記チャンネル拡大手段で生成されたNチャンネルの第2の周波数帯域信号を帯域合成することによって、時間軸上のNチャンネルのオーディオ信号に変換する帯域合成手段と、前記第1の周波数帯域信号におけるエリアジングノイズの発生を検出するエリアジングノイズ検出手段とを備え、前記第2の符号化データは、元のNチャンネルのオーディオ信号間のレベル比と位相差とを含む空間パラメータを符号化したデータであり、前記周波数帯域信号生成手段は、前記第1の周波数帯域信号のうち、少なくとも一部の周波数帯域については、実数で表現される前記第1の周波数帯域信号を生成し、前記エリアジングノイズ検出手段は、前記第1の周波数帯域信号において、強い周波数成分が持続する状態であるトーン性の強い信号が存在する周波数帯域を検出し、前記チャンネル拡大手段は、前記エリアジングノイズ検出手段で検出された周波数帯域に隣接する周波数帯域の信号レベルを調整した前記第2の周波数帯域信号を出力し、前記チャンネル拡大手段は、前記第1の周波数帯域信号と、当該第1の周波数帯域信号から生成した無相関信号とを、前記空間パラメータから生成した演算係数に応じた比率で混ぜ合わせることによって、前記第2の周波数帯域信号を生成する演算手段と、前記エリアジングノイズ検出手段によって検出された周波数帯域に隣接する周波数帯域について、前記演算係数を調整することによって、前記信号レベルを調整する調整モジュールとを備えることを特徴とする。
また、本発明に係るオーディオデコーダは、N(N≧2)チャンネルのオーディオ信号をダウンミックスして得られるダウンミックス信号を符号化した第1の符号化データと、前記ダウンミックス信号を元のNチャンネルのオーディオ信号に復元するためのパラメータを符号化した第2の符号化データとからなるビットストリームをデコードし、Nチャンネルのオーディオ信号を生成するオーディオデコーダであって、前記第1の符号化データから、前記ダウンミックス信号に対する第1の周波数帯域信号を生成する周波数帯域信号生成手段と、前記第2の符号化データを用いて、前記周波数帯域信号生成手段で生成された第1の周波数帯域信号を、Nチャンネルのオーディオ信号に対する第2の周波数帯域信号に変換するチャンネル拡大手段と、前記チャンネル拡大手段で生成されたNチャンネルの第2の周波数帯域信号を帯域合成することによって、時間軸上のNチャンネルのオーディオ信号に変換する帯域合成手段と、前記第1の周波数帯域信号におけるエリアジングノイズの発生を検出するエリアジングノイズ検出手段とを備え、前記チャンネル拡大手段はさらに、前記エリアジングノイズ検出手段で検出された情報に基づいて、前記第2の周波数帯域信号にエリアジングノイズが含まれることを防止することを特徴とする。
これにより、第1の周波数帯域信号においてエリアジングノイズが発生することが予見された場合には、チャンネル拡大手段においてノイズの発生が抑制されるので、チャンネル拡大手段の後段においてチャンネルの数だけノイズ除去部を設けることに比べ、極めて少ない処理量でエリアジングノイズが抑制され、小さな回路規模あるいはプログラムサイズのオーディオデコーダが実現される。
また、前記周波数帯域信号生成手段は、前記第1の周波数帯域信号のうち、少なくとも一部の周波数帯域については、実数で表現される前記第1の周波数帯域信号を生成し、前記エリアジングノイズ検出手段は、前記第1の周波数帯域信号が実数で表現されることに起因して発生するエリアジングノイズの発生を検出することを特徴としてもよい。
これにより、第1の周波数帯域信号は、複素数ではなく、実数で表現されるので、演算量が削減され、かつ、実数での表現を用いることによるエリアジングノイズの発生という問題も回避される。
また、前記周波数帯域信号生成手段は、所定の周波数帯域の帯域分解能を高めるためのナイキストフィルタバンクを有し、当該ナイキストフィルタバンクが処理する周波数帯域については複素数で表現される周波数帯域信号を生成し、当該ナイキストフィルタバンクが処理しない周波数帯域については実数で表現される周波数帯域信号を生成することを特徴としてもよい。
これにより、第1の周波数帯域信号は、帯域分解能を高めるためのフィルタバンクについては、複素数のまま処理されることになるので、高い帯域分解能を維持しつつ、演算量が抑制され、音質向上と回路規模の削減の両方をバランスよく達成することができる。
また、前記エリアジングノイズ検出手段は、前記第1の周波数帯域信号において、強い周波数成分が持続する状態であるトーン性の強い信号が存在する周波数帯域を検出し、前記チャンネル拡大手段は、前記エリアジングノイズ検出手段で検出された周波数帯域に隣接する周波数帯域の信号レベルを調整した前記第2の周波数帯域信号を出力することを特徴としてもよい。
これにより、エリアジングノイズが目立つトーン性の高い周波数帯域において信号レベルが調整されるので、効率的なノイズ除去が実現される。
また、前記第2の符号化データは、元のNチャンネルのオーディオ信号間のレベル比と位相差とを含む空間パラメータを符号化したデータであり、前記チャンネル拡大手段は、前記第1の周波数帯域信号と、当該第1の周波数帯域信号から生成した無相関信号とを、前記空間パラメータから生成した演算係数に応じた比率で混ぜ合わせることによって、前記第2の周波数帯域信号を生成する演算手段と、前記エリアジングノイズ検出手段によって検出された周波数帯域に隣接する周波数帯域について、前記演算係数を調整することによって、前記信号レベルを調整する調整モジュールとを備えることを特徴としてもよい。
これにより、空間的な音の拡がりを演出する残響処理を施しつつエリアジングノイズが抑制されるので、回路規模が小さく、かつ、空間的な音響効果が損なわれない空間音響復号化が実現される。
また、前記演算手段は、前記空間パラメータに含まれるレベル比から導出されるスケーリング係数を前記演算係数の一部として用い、前記第1の周波数帯域信号をスケーリングすることで、中間信号を生成するプレマトリックスモジュールと、前記プレマトリクスモジュールで生成された中間信号に対してオールパスフィルタの処理を施すことによって、無相関信号を生成する無相関モジュールと、前記空間パラメータに含まれる位相差から導出されるミキシング係数を前記演算係数の一部として用い、前記第1の周波数帯域信号と前記無相関信号とを混ぜ合わせるポストマトリックスモジュールとを備え、前記調整モジュールは、前記空間パラメータを調整することによって、前記演算係数を調整することを特徴としてもよい。例えば、前記調整モジュールは、前記エリアジングノイズ検出手段が検出した周波数帯域と当該周波数帯域に隣接する周波数帯域についての前記空間パラメータをイコライズするイコライザを有する。
これにより、プレマトリクスモジュール、無相関モジュール及びポストマトリクスモジュールを備える従来の空間音響デコーダにも適用することでき、コンパクト化と高速処理化が可能となる。
なお、本発明は、このようなオーディオデコーダとして実現することができるだけでなく、集積回路や、方法、プログラム、そのプログラムを格納する記憶媒体としても実現することができる。
本発明のオーディオデコーダは、エリアジングノイズの発生を抑えつつ演算量を軽減することができるという作用効果を奏する。
以下、本発明の実施の形態におけるオーディオデコーダについて図面を参照しながら説明する。
図8は、本発明の実施の形態におけるオーディオデコーダの構成を示すブロック図である。
本実施の形態におけるオーディオデコーダ100は、エリアジングノイズの発生を抑えつつ演算量を軽減したものであって、逆多重化部101と、デコーダ102と、マルチチャンネル合成部103とを備えている。
逆多重化部101は、上記従来の逆多重化部1210と同様の機能を有し、オーディオエンコーダから出力された符号化信号を取得して、その符号化信号から、量子化されたBC情報と、符号化ダウンミックス信号とを分離して出力する。なお、逆多重化部101は、量子化されたBC情報を逆量子化して出力する。
符号化ダウンミックス信号は、第1の符号化データとして構成され、例えば6チャンネルのオーディオ信号がダウンミックスされてAAC方式で符号化されている。なお、符号化ダウンミックス信号は、AAC方式とSBR(Spectral Band Replication)方式で符号化されていてもよい。BC情報は、予め定められた形式で符号化されており、第2の符号化データとして構成されている。
デコーダ102は、上記従来のデコーダ1220と同様の機能を有し、符号化ダウンミックス信号を復号化することにより、PCM信号(時間軸信号)であるダウンミックス信号Mを生成してマルチチャンネル合成部103に出力する。なお、デコーダ102は、AAC方式の復号化過程で生成されるMDCT(Modified Discrete Cosine Transform)係数を、分析フィルタバンク110の出力形式に応じて変換することによって、周波数帯域信号を生成してもよい。
マルチチャンネル合成部103は、デコーダ102からダウンミックス信号Mを取得するとともに、逆多重化部101からBC情報を取得する。そして、マルチチャンネル合成部103は、そのBC情報を用いて、ダウンミックス信号Mから上述の6つのオーディオ信号を復元する。
マルチチャンネル合成部103は、分析フィルタバンク110と、エリアジングノイズ検出部120と、チャンネル拡大部130と、合成フィルタバンク140とを備えている。
分析フィルタバンク110は、デコーダ102から出力されたダウンミックス信号Mを取得し、そのダウンミックス信号Mの表現形式を、時間/周波数ハイブリッド表現に変換し、第1周波数帯域信号xとして出力する。この第1周波数帯域信号xは、全ての周波数帯域が実数で表現された周波数帯域信号である。なお、本実施の形態では、デコーダ102と分析フィルタバンク110とから周波数帯域信号生成手段が構成されている。
エリアジングノイズ検出部120は、分析フィルタバンク110から出力された第1周波数帯域信号xを分析することによって、マルチチャンネル合成部103から出力される6チャンネルのオーディオ信号にエリアジングノイズが発生する可能性が高いか否かを検出する。つまり、エリアジングノイズ検出部120は、第1周波数帯域信号xの各周波数帯域にトーン性の強い信号が存在するか否かを判別する。言い換えれば、エリアジングノイズ検出部120は、強い周波数成分が持続する状態であるトーン性の強い信号が存在する周波数帯域を検出する。そして、エリアジングノイズ検出部120は、強い信号が存在すると判別した場合には、隣接の周波数帯域にエリアジングノイズが発生する可能性が高いことを検出する。また、分析フィルタバンク110では、実数で表現された第1周波数帯域信号xが生成されるため、そのエリアジングノイズが発生する可能性は高い。
チャンネル拡大部130は、BC情報を取得して、そのBC情報に基づいて、第1周波数帯域信号xから6チャンネルの出力信号yを生成するための行列を生成する。このとき、チャンネル拡大部130は、エリアジングノイズ検出部120によってエリアジングノイズの発生の可能性が高いと検出されると、合成フィルタバンク140から出力される出力信号yにおいてエリアジングノイズが抑えられるような行列(演算係数)を生成する。そして、チャンネル拡大部130は、第1周波数帯域信号xに対してその行列を用いた行列演算を行うことにより、周波数帯域信号(第2周波数帯域信号)である6チャンネルの出力信号yを出力する。
つまり、チャンネル拡大部130は、エリアジングノイズの発生の可能性が高いと検出されると、その可能性が高い周波数帯域の信号の振幅を調整することによって、エリアジングノイズを軽減する。すなわち、BC情報にはレベル情報IIDが含まれているので、チャンネル拡大部130は、そのレベル情報IIDから得られる各周波数帯域ごとの振幅増幅率を行列の中で調整することによって、エリアジングノイズの発生の可能性が高い周波数帯域の信号の大きさを制御する。
合成フィルタバンク140は、6つの合成フィルタ140aを備えている。各合成フィルタ140aはそれぞれ、チャンネル拡大部130から出力された出力信号yの表現形式を、時間/周波数ハイブリッド表現から時間表現に変換する。つまり、合成フィルタ140aは、出力信号yを帯域合成する帯域合成手段として構成されており、周波数帯域信号である出力信号yを、PCM信号(時間軸信号)に変換して出力する。これにより、6チャンネルのオーディオ信号からなるステレオ信号が出力される。
図9は、マルチチャンネル合成部103の詳細な構成を示すブロック図である。
分析フィルタバンク110は、実数QMF部111と、実数Nyq部112とを備えている。
実数QMF部111は、フィルタバンクとして、実数係数のQMF(Quadrature Mirror Filter)で構成されており、PCM信号であるダウンミックス信号Mを所定の周波数帯域ごとに分析して、時間/周波数ハイブリッド表現である実数の第1の周波数帯域信号xを生成する。
このような実数QMF部111は、(数8)に示すような複素数(複素変調係数)Mr(k,n)ではなく、(数9)に示すような実数(実数変調係数)Mr(k,n)を用いる。
Figure 0004944029
Figure 0004944029
実数Nyq部112は、実数係数のナイキストフィルタバンクで構成されており、前記実数QMF部111で生成された第1周波数帯域信号xの低周波数帯域において、さらに細かい周波数帯域ごとに実数の第1周波数帯域信号xを修正する。
このような実数Nyq部112のフィルタは、例えば(数10)に示すような複素数(複素変調係数)gq n,mではなく、(数11)に示すような実数(実数変調係数)gq pを用いる。
Figure 0004944029
Figure 0004944029
TD部120は、上述のエリアジングノイズ検出部120であって、パラメータバンドmおよび処理フレームgにおけるトーン性(トーナリティ)Tg(m)を、(数12)のように導出する。
Figure 0004944029
ここで、Pg pow2(f)は、2つの処理フレームgおよび(g−1)における信号消費電力の合計を示し、Pg coh(f)は、上述の処理フレームのコヒーレンス値を示す。Tg(m)の値は0から1であって、Tg(m)=0はトーナリティがないことを示し、Tg(m)=1はトーナリティが高いことを示す。
全体のトーナリティは、2つの処理フレームにおける上記トーナリティの最小値によって、(数13)のように示され、パラメータバンドmにおけるトーナリティの最大値GT(m)は、(数14)のように示される。
Figure 0004944029
Figure 0004944029
チャンネル拡大部130は、調整モジュールたるEQ部(イコライザ)136と、プレマトリックス処理部131と、ポストマトリックス処理部132と、第1演算部133と、第2演算部134と、実数無相関処理部135とを備えている。
EQ部136は、TD部120においてエリアジングノイズの発生の可能性が高いとパラメータバンドbにおいて検出されると、BC情報に含まれるレベル情報IIDや相関情報ICCなどである、パラメータバンドbにおける空間パラメータp(b)を、エリアジングノイズの発生が抑えられるように修正する。
プレマトリックス処理部131は、従来のプレマトリックス処理部1251と同様の機能を有し、EQ部136を介してBC情報を取得し、そのBC情報に基づいて行列R1を生成する。つまり、プレマトリックス処理部131は、BC情報の空間パラメータに含まれるレベル情報IIDから、スケーリング係数を上述の演算係数の一部として導出する。
第1演算部133は、実数で表現された第1周波数帯域信号xと行列R1との積を算出し、その行列演算結果を示す中間信号vを出力する。つまり、本実施の形態では、プレマトリックス処理部131および第1演算部133によってプレマトリックスモジュールが構成され、そのプレマトリックスモジュールが第1周波数帯域信号xをスケーリングしている。
実数無相関処理部135は、実数で表現された中間信号vに対してオールパスフィルタ処理を施すことによって、無相関信号wを生成して出力する。
このような実数無相関処理部135は、(数15)に示すような複素数(複素格子係数)φc n,mではなく、(数16)に示すような実数(実数格子係数)φc n,mを用いる。これにより、非整数遅延係数が取り除かれる。
Figure 0004944029
Figure 0004944029
ポストマトリックス処理部132は、従来のポストマトリックス処理部1252と同様の機能を有し、EQ部136を介してBC情報を取得し、そのBC情報に基づいて行列R2を生成する。つまり、ポストマトリックス処理部132は、BC情報の空間パラメータに含まれる相関情報ICCや位相情報IPDから、ミキシング係数を上述の演算係数の一部として導出する。
第2演算部134は、実数で表現された無相関信号wと行列R2との積を算出し、その行列演算結果を示す周波数帯域信号たる出力信号yを出力する。つまり、本実施の形態では、ポストマトリックス処理部132および第2演算部134によってポストマトリックスモジュールが構成され、そのポストマトリックスモジュールが、ミキシング係数を用いて、第1周波数帯域信号xと無相関信号wとを混ぜ合わせている。
合成フィルタバンク140は、実数INyq部141と、実数IQMF部142とを備えている。
実数INyq部141は、実数係数の逆ナイキストフィルターで、実数IQMF部142は、実数係数の逆QMFフィルターで構成されている。これにより、合成フィルタバンク140は、実数で表現された出力信号yを、例えば6チャンネルのオーディオ信号からなる時間信号に変換して出力する。
また、このような実数IQMF部142は、例えば(数17)に示すような複素数(複素変調係数)Nr(k,n)ではなく、(数18)に示すような実数(実数変調係数)Nr(k,n)を用いる。
Figure 0004944029
Figure 0004944029
図10は、TD部120およびEQ部136の動作を示すフローチャートである。
まず、TD部120は、分析フィルタバンク110から出力された第1周波数帯域信号xを分析することにより、パラメータバンドbが0からPramBandまでの範囲で、パラメータバンドbのトーナリティGT(b)と、そのパラメータバンドbに隣接するパラメータバンド(b+1)のトーナリティGT(b+1)との平均値である平均トーナリティGT’(b)を算出する(ステップS700)。
次に、TD部120は、パラメータバンドbを0に初期設定し(ステップS701)、パラメータバンドbが(ParamBand−1)に達しているか否か、つまり、パラメータバンドbの示すバンドが、最後から二番目のバンドであるか否かを判別する(ステップS702)。
ここで、TD部120は、(ParamBand−1)に達していると判別したときには(ステップS702のyes)、エリアジングノイズ検出の処理を終了する。一方、(ParamBand−1)に達していないと判別したときには(ステップS702のno)、TD部120は、さらに、その平均トーナリティGT’(b)が、予め定められた閾値TH2よりも大きいか否かを判別する(ステップS703)。
TD部120は、閾値TH2よりも大きいと判別したときには(ステップS703のyes)、エリアジングノイズの発生の可能性があることを検出し、その検出結果をEQ部136に通知する。EQ部136は、その検出結果の通知を受けると、パラメータバンドbの空間パラメータp(b)と、パラメータバンド(b+1)の空間パラメータp(b+1)とを、それらの平均値に置き換えて、空間パラメータp(b)と空間パラメータp(b+1)とを等しくする。そして、TD部120は、パラメータバンドbの値を1だけ増加させ(ステップS707)、ステップS702からの動作を繰り返し実行する。
一方、TD部120は、平均トーナリティGT’(b)が閾値TH2以下であると判別したときには(ステップS703のno)、さらに、その平均トーナリティGT’(b)が閾値TH1よりも小さいか否かを判別する(ステップS705)。なお、閾値TH1は、閾値TH2よりも小さい値である。
ここで、TD部120は、閾値TH1よりも小さいと判別すると(ステップS705のyes)、ステップS707からの処理を繰り返し実行し、閾値TH1以上であると判別すると(ステップS705のno)、その判別結果、平均トーナリティGT’(b)および閾値TH1,TH2をEQ部136に通知する。
EQ部136は、上述の通知を受けると、パラメータバンドbの空間パラメータp(b)=ave×(1−a)+p(b)×aと、パラメータバンド(b+1)の空間パラメータp(b+1)=ave×(1−a)+p(b+1)×aとを算出する(ステップS706)。ここで、ave=0.5×(p(b)+p(b+1))であって、a=(TH2−GT’(b))/(TH2−TH1)である。
つまり、EQ部136は、閾値TH1と閾値TH2との間の全ての平均トーナリティGT’(b)に対して、空間パラメータp(b),p(b+1)を線形補間している。つまり、平均トーナリティGT’(b)が閾値TH1に近い、即ちトーナリティが小さいときには、空間パラメータp(b),p(b+1)はそれぞれ元の値に近くなり、平均トーナリティGT’(b)が閾値TH2に近い、即ちトーナリティが大きいときには、空間パラメータp(b),p(b+1)はそれぞれの平均値に近くなる。
このように本実施の形態では、エリアジングノイズが発生しないように、チャンネル拡大部130において空間パラメータが調整されるため、チャンネル拡大部130の後段においてチャンネルの数だけノイズ除去部を設けることに比べ、極めて少ない処理量でエリアジングノイズが抑制され、小さな回路規模あるいはプログラムサイズのオーディオデコーダが実現される。その結果、低消費電力化、メモリ容量の削減、およびチップサイズの小型化を図ることができる。
(変形例1)
ここで本実施の形態における第1の変形例について説明する。
上記実施の形態では、EQ部136はTD部120の検出結果に基づいて空間パラメータpをイコライズしたが、本変形例に係るEQ部は、プレマトリックス処理部131で生成された行列R1をイコライズするとともに、ポストマトリックス処理部132で生成された行列R2をイコライズする。
図11は、本変形例に係るマルチチャンネル合成部の詳細な構成を示すブロック図である。
本変形例に係るマルチチャンネル合成部103aは、上記実施の形態におけるチャンネル拡大部130の代わりに、チャンネル拡大部130aを備える。
チャンネル拡大部130aは、上記実施の形態のEQ部136と同様の機能を有するEQ部136aおよびEQ部136bを備えている。
即ち、EQ部136aは、TD部120による検出結果に基づいて、プレマトリックス処理部131から出力された行列R1(スケーリング係数)をイコライズし、EQ部136bは、TD部120による検出結果に基づいて、ポストマトリックス処理部132から出力された行列R2(ミキシング係数)をイコライズする。
EQ部136aは、(数19)に示すように、EQ部136の処理対象である空間パラメータp(b)の代わりに、行列R1(b)を処理対象として扱う。
Figure 0004944029
EQ部136bは、(数20)に示すように、EQ部136の処理対象である空間パラメータp(b)の代わりに、行列R2(b)を処理対象として扱う。
Figure 0004944029
このように本変形例では、エリアジングノイズが発生しないように、チャンネル拡大部130において演算係数たる行列R1,R2が直接的に調整されるため、チャンネル拡大部130の後段においてチャンネルの数だけノイズ除去部を設けることに比べ、極めて少ない処理量でエリアジングノイズが抑制され、小さな回路規模あるいはプログラムサイズのオーディオデコーダが実現される。
(変形例2)
ここで本実施の形態における第2の変形例について説明する。
上記実施の形態では、周波数帯域信号の全ての周波数帯域において実数を用いたが、本変形例では、周波数帯域信号のうち低周波数帯域においては複素数を用いる。つまり、本変形例では、周波数帯域信号のうち一部に対してのみ実数を用いる。
図12は、本変形例に係るマルチチャンネル合成部の詳細な構成を示すブロック図である。
本変形例に係るマルチチャンネル合成部103bは、分析フィルタバンク110aと、チャンネル拡大部130bと、合成フィルタバンク140aとを備えている。
分析フィルタバンク110aは、ダウンミックス信号を、時間/周波数ハイブリッド表現に変換し、第1周波数帯域信号xとして出力するものであって、上述の実数QMF部111と、複素Nyq部112aとを備えている。
複素Nyq部112aは、複素係数のナイキストフィルタバンクとして構成されており、実数QMF部111で生成された第1周波数帯域信号xの低周波数帯域において、複素係数のナイキストフィルターにより、その第1周波数帯域信号xを修正する。
このように分析フィルタバンク110aは、低域周波数帯域が部分的に実数で表現される第1周波数帯域信号xを生成して出力する。
チャンネル拡大部130bは、上述のプレマトリックス処理部131、ポストマトリックス処理部132、第1演算部133、および第2演算部134と、部分的実数無相関処理部135aとを備えている。
部分的実数無相関処理部135aは、部分的に実数で表現される第1周波数帯域信号xに基づいて第1演算部133から出力された中間信号vに対して、オールパスフィルタ処理を施すことによって、無相関信号wを生成して出力する。
合成フィルタバンク140aは、チャンネル拡大部130bから出力された出力信号yの表現形式を、時間/周波数ハイブリッド表現から時間表現に変換するものであって、上述の実数IQMF部142と、複素INyq部141aとを備えている。複素INyq部141aは、複素係数の逆ナイキストフィルターであり、低域周波数帯域において、複素数の第1周波数帯域信号xを生成する。そして、実数IQMF部142は、複素INyq部141aによる処理結果に対して、実数係数の逆QMFによる合成フィルタ処理により、マルチチャンネルの時間信号を出力する。
このように本変形例では、低周波数帯域では複素数のまま処理されることになるので、高い帯域分解能を維持しつつ、演算量が抑制され、音質向上と回路規模の削減の両方をバランスよく達成することができる。
(変形例3)
ここで本実施の形態における第3の変形例について説明する。
本変形例に係るマルチチャンネル合成部は、上記変形例1および変形例2の特徴を兼ね備えている。
図13は、本変形例に係るマルチチャンネル合成部の詳細な構成を示すブロック図である。
本変形例に係るマルチチャンネル合成部103cは、変形例2の分析フィルタバンク110aと、チャンネル拡大部130cと、変形例2の合成フィルタバンク140aとを備えている。
チャンネル拡大部130cは、変形例1のEQ部136a,136bと、変形例2の部分的実数無相関処理部135aとを備えている。
つまり、本変形例に係るマルチチャンネル合成部103cは、プレマトリックス処理部131で生成された行列R1をイコライズするとともに、ポストマトリックス処理部132で生成された行列R2をイコライズする。さらに、本変形例に係るマルチチャンネル合成部103cは、周波数帯域信号のうち一部に対してのみ実数を用いる。
(変形例4)
ここで本実施の形態における第4の変形例について説明する。
上記実施の形態におけるTD部120およびEQ部136は、互いに隣接するパラメータバンドで空間パラメータp(b)を平均化した、本変形例に係るTD部120およびEQ部136は、複数の連続するパラメータバンドからなるグループで空間パラメータp(b)を平均化する。
図14は、本変形例に係るTD部120およびEQ部136の動作を示すフローチャートである。
まず、TD部120は、パラメータバンドb=0、カウント値cnt=0および平均値ave=0を初期設定する(ステップS1100)。そして、TD部120は、パラメータバンドbが(ParamBand−1)に達しているか否か、つまり、パラメータバンドbの示すバンドが、最後から二番目のバンドであるか否かを判別する(ステップS1101)。
ここで、TD部120は、(ParamBand−1)に達していると判別したときには(ステップS1101のyes)、エリアジングノイズ検出の処理を終了する。一方、(ParamBand−1)に達していないと判別したときには(ステップS1101のno)、TD部120は、さらに、その平均トーナリティGT’(b)が、予め定められた閾値TH3よりも大きいか否かを判別する(ステップS1102)。
TD部120は、閾値TH3よりも大きいと判別したときには(ステップS1102のyes)、エリアジングノイズの発生の可能性があることを検出し、その検出結果をEQ部136に通知する。EQ部136は、その検出結果の通知を受けると、パラメータバンドbの空間パラメータp(b)を平均値aveに加算してその平均値aveを更新し、カウント値cntを1だけ増加させる(ステップS1103)。そして、TD部120は、パラメータバンドbの値を1だけ増加させ(ステップS1108)、ステップS1101からの動作を繰り返し実行する。
このように、連続する各パラメータバンドbにおける平均トーナリティGT’(b)が閾値TH3よりも大きい場合には、その各パラメータバンドbの空間パラメータp(b)が積算される。
一方、TD部120は、平均トーナリティGT’(b)が閾値TH3以下であると判別したときには(ステップS1102のno)、さらに、現在のカウント値cntが1よりも大きいか否かを判別する(ステップS1104)。TD部120は、カウント値cntが1よりも大きいと判別すると(ステップS1104のyes)、平均値aveをそのカウント値cntで除算して、その平均値aveを更新する(ステップS1106)。そして、TD部120は、その更新された平均値aveをEQ部136に通知する。
EQ部136は、(b−cnt)から(b−1)の範囲のパラメータバンドiの空間パラメータp(i)が、TD部120から通知された平均値aveになるように、それらの空間パラメータp(i)を更新する(ステップS1107)。
TD部120は、カウント値cntが1以下であると判別すると(ステップS1104のno)、または、EQ部136が上述のようにステップS1107で空間パラメータp(i)を更新すると、カウント値cntおよび平均値aveを0に設定する(ステップS1105)。そして、TD部120は、ステップS1108からの動作を繰り返して実行する。
このように本変形例では、閾値TH3よりも大きい平均トーナリティGT’(b)を有する連続したパラメータバンドからなるグループで、空間パラメータp(b)が平均化される。
なお、上記実施の形態およびその変形例におけるオーディオデコーダの全体または一部の構成要素は、LSI(Large Scale Integration)などの集積回路として実現することができるとともに、その処理動作をコンピュータに実行させるプログラムとしても実現することができる。
本発明のオーディオデコーダは、エリアジングノイズの発生を抑えつつ演算量を軽減することができるという効果を奏し、特に、放送等の低ビットレートの応用において有用であって、例えばホームシアターシステム、車載音響システム及び電子ゲームシステムなどに適用可能である。
図1は、従来のオーディオ装置の構成を示すブロック図である。 図2は、同上のチャンネル拡大部の機能構成を示す機能ブロック図である。 図3は、同上のチャンネル拡大部の機能構成を示す他の機能ブロック図である。 図4は、同上のチャンネル拡大部の詳細な構成を示すブロック図である。 図5は、同上のオーディオデコーダの構成を示す他のブロック図である。 図6は、同上のオーディオデコーダの構成を示す他のブロック図である。 図7は、実数処理およびエリアジングノイズ除去を行うオーディオデコーダの構成を示すブロック図である。 図8は、本発明の実施の形態におけるオーディオデコーダの構成を示すブロック図である。 図9は、同上のマルチチャンネル合成部の詳細な構成を示すブロック図である。 図10は、同上のTD部およびEQ部の動作を示すフローチャートである。 図11は、同上の変形例1に係るマルチチャンネル合成部の詳細な構成を示すブロック図である。 図12は、同上の変形例2に係るマルチチャンネル合成部の詳細な構成を示すブロック図である。 図13は、同上の変形例3に係るマルチチャンネル合成部の詳細な構成を示すブロック図である。 図14は、同上の変形例4に係るTD部およびEQ部の動作を示すフローチャートである。
符号の説明
100 オーディオデコーダ
101 逆多重化部
102 デコーダ
103 マルチチャンネル合成部
110 分析フィルタバンク
120 エリアジングノイズ検出部(TD部)
130 チャンネル拡大部
131 プレマトリックス処理部
132 ポストマトリックス処理部
133 第1演算部
134 第2演算部
135 実数無相関処理部
136 EQ部
140 合成フィルタバンク

Claims (8)

  1. N(N≧2)チャンネルのオーディオ信号をダウンミックスして得られるダウンミックス信号を符号化した第1の符号化データと、前記ダウンミックス信号を元のNチャンネルのオーディオ信号に復元するためのパラメータを符号化した第2の符号化データとからなるビットストリームをデコードし、Nチャンネルのオーディオ信号を生成するオーディオデコーダであって、
    前記第1の符号化データから、前記ダウンミックス信号に対する第1の周波数帯域信号を生成する周波数帯域信号生成手段と、
    前記第2の符号化データを用いて、前記周波数帯域信号生成手段で生成された第1の周波数帯域信号を、Nチャンネルのオーディオ信号に対する第2の周波数帯域信号に変換するチャンネル拡大手段と、
    前記チャンネル拡大手段で生成されたNチャンネルの第2の周波数帯域信号を帯域合成することによって、時間軸上のNチャンネルのオーディオ信号に変換する帯域合成手段と、
    前記第1の周波数帯域信号におけるエリアジングノイズの発生を検出するエリアジングノイズ検出手段とを備え、
    前記第2の符号化データは、元のNチャンネルのオーディオ信号間のレベル比と位相差とを含む空間パラメータを符号化したデータであり、
    前記周波数帯域信号生成手段は、前記第1の周波数帯域信号のうち、少なくとも一部の周波数帯域については、実数で表現される前記第1の周波数帯域信号を生成し、
    前記エリアジングノイズ検出手段は、前記第1の周波数帯域信号において、強い周波数成分が持続する状態であるトーン性の強い信号が存在する周波数帯域を検出し、
    前記チャンネル拡大手段は、前記エリアジングノイズ検出手段で検出された周波数帯域に隣接する周波数帯域の信号レベルを調整した前記第2の周波数帯域信号を出力し、
    前記チャンネル拡大手段は、
    前記第1の周波数帯域信号と、当該第1の周波数帯域信号から生成した無相関信号とを、前記空間パラメータから生成した演算係数に応じた比率で混ぜ合わせることによって、前記第2の周波数帯域信号を生成する演算手段と、
    前記エリアジングノイズ検出手段によって検出された周波数帯域に隣接する周波数帯域について、前記演算係数を調整することによって、前記信号レベルを調整する調整モジュールとを備える
    ことを特徴とするオーディオデコーダ。
  2. 前記周波数帯域信号生成手段は、所定の周波数帯域の帯域分解能を高めるためのナイキストフィルタバンクを有し、当該ナイキストフィルタバンクが処理する周波数帯域については複素数で表現される周波数帯域信号を生成し、当該ナイキストフィルタバンクが処理しない周波数帯域については実数で表現される周波数帯域信号を生成する
    ことを特徴とする請求項記載のオーディオデコーダ。
  3. 前記演算手段は、
    前記空間パラメータに含まれるレベル比から導出されるスケーリング係数を前記演算係数の一部として用い、前記第1の周波数帯域信号をスケーリングすることで、中間信号を生成するプレマトリックスモジュールと、
    前記プレマトリックスモジュールで生成された中間信号に対してオールパスフィルタの処理を施すことによって、無相関信号を生成する無相関モジュールと、
    前記空間パラメータに含まれる位相差から導出されるミキシング係数を前記演算係数の一部として用い、前記第1の周波数帯域信号と前記無相関信号とを混ぜ合わせるポストマトリックスモジュールとを備え、
    前記調整モジュールは、前記空間パラメータを調整することによって、前記演算係数を調整する
    ことを特徴とする請求項記載のオーディオデコーダ。
  4. 前記調整モジュールは、前記エリアジングノイズ検出手段が検出した周波数帯域と当該周波数帯域に隣接する周波数帯域についての前記スケーリング係数をイコライズすることによって、前記演算係数を調整するイコライザを有する
    ことを特徴とする請求項記載のオーディオデコーダ。
  5. 前記調整モジュールは、前記エリアジングノイズ検出手段が検出した周波数帯域と当該周波数帯域に隣接する周波数帯域についての前記ミキシング係数をイコライズすることによって、前記演算係数を調整するイコライザを有する
    ことを特徴とする請求項記載のオーディオデコーダ。
  6. 前記調整モジュールは、前記エリアジングノイズ検出手段が検出した周波数帯域と当該周波数帯域に隣接する周波数帯域についての前記空間パラメータをイコライズするイコライザを有する
    ことを特徴とする請求項記載のオーディオデコーダ。
  7. 前記イコライザは、イコライズの対象となる各要素を当該各要素の平均値で置き換えることによって、前記イコライズをする
    ことを特徴とする請求項のいずれか1項に記載のオーディオデコーダ。
  8. N(N≧2)チャンネルのオーディオ信号をダウンミックスして得られるダウンミックス信号を符号化した第1の符号化データと、前記ダウンミックス信号を元のNチャンネルのオーディオ信号に復元するためのパラメータを符号化した第2の符号化データとからなるビットストリームをデコードし、Nチャンネルのオーディオ信号を生成するオーディオ信号の復号方法であって、
    前記第1の符号化データから、前記ダウンミックス信号に対する第1の周波数帯域信号を生成する周波数帯域信号生成ステップと、
    前記第2の符号化データを用いて、前記周波数帯域信号生成ステップで生成された第1の周波数帯域信号を、Nチャンネルのオーディオ信号に対する第2の周波数帯域信号に変換するチャンネル拡大ステップと、
    前記チャンネル拡大ステップで生成された、Nチャンネルの第2の周波数帯域信号を帯域合成することによって、時間軸上のNチャンネルのオーディオ信号に変換する帯域合成ステップと、
    前記第1の周波数帯域信号におけるエリアジングノイズの発生を検出するエリアジングノイズ検出ステップとを含み、
    前記第2の符号化データは、元のNチャンネルのオーディオ信号間のレベル比と位相差とを含む空間パラメータを符号化したデータであり、
    前記周波数帯域信号生成ステップでは、前記第1の周波数帯域信号のうち、少なくとも一部の周波数帯域については、実数で表現される前記第1の周波数帯域信号を生成し、
    前記エリアジングノイズ検出ステップでは、前記第1の周波数帯域信号において、強い周波数成分が持続する状態であるトーン性の強い信号が存在する周波数帯域を検出し、
    前記チャンネル拡大ステップでは、前記エリアジングノイズ検出ステップで検出された周波数帯域に隣接する周波数帯域の信号レベルを調整した前記第2の周波数帯域信号を出力し、
    前記チャンネル拡大ステップは、
    前記第1の周波数帯域信号と、当該第1の周波数帯域信号から生成した無相関信号とを、前記空間パラメータから生成した演算係数に応じた比率で混ぜ合わせることによって、前記第2の周波数帯域信号を生成する演算ステップと、
    前記エリアジングノイズ検出ステップによって検出された周波数帯域に隣接する周波数帯域について、前記演算係数を調整することによって、前記信号レベルを調整する調整ステップとを含む
    ことを特徴とするオーディオ信号の復号方法。
JP2007525956A 2005-07-15 2006-07-11 オーディオデコーダおよびオーディオ信号の復号方法 Active JP4944029B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007525956A JP4944029B2 (ja) 2005-07-15 2006-07-11 オーディオデコーダおよびオーディオ信号の復号方法

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2005207693 2005-07-15
JP2005207754 2005-07-15
JP2005207693 2005-07-15
JP2005207754 2005-07-15
JP2007525956A JP4944029B2 (ja) 2005-07-15 2006-07-11 オーディオデコーダおよびオーディオ信号の復号方法
PCT/JP2006/313783 WO2007010785A1 (ja) 2005-07-15 2006-07-11 オーディオデコーダ

Publications (2)

Publication Number Publication Date
JPWO2007010785A1 JPWO2007010785A1 (ja) 2009-01-29
JP4944029B2 true JP4944029B2 (ja) 2012-05-30

Family

ID=37668667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007525956A Active JP4944029B2 (ja) 2005-07-15 2006-07-11 オーディオデコーダおよびオーディオ信号の復号方法

Country Status (7)

Country Link
US (1) US8081764B2 (ja)
EP (1) EP1906706B1 (ja)
JP (1) JP4944029B2 (ja)
KR (1) KR101212900B1 (ja)
CN (1) CN101223821B (ja)
DE (1) DE602006010712D1 (ja)
WO (1) WO2007010785A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
EP1905002B1 (en) 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
WO2007091850A1 (en) 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
EP2111618A4 (en) * 2007-02-13 2010-04-21 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
EP2093757A4 (en) * 2007-02-20 2012-02-22 Panasonic Corp MULTIPLEX DECODING DEVICE, MULTIPLEX DECODING METHOD, PROGRAM, AND SEMICONDUCTOR INTEGRATED CIRCUIT
JP2010521866A (ja) 2007-03-16 2010-06-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP5291096B2 (ja) * 2007-06-08 2013-09-18 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US8200959B2 (en) 2007-06-28 2012-06-12 Cisco Technology, Inc. Verifying cryptographic identity during media session initialization
US8417942B2 (en) 2007-08-31 2013-04-09 Cisco Technology, Inc. System and method for identifying encrypted conference media traffic
US8837598B2 (en) * 2007-12-28 2014-09-16 Cisco Technology, Inc. System and method for securely transmitting video over a network
US20090169001A1 (en) * 2007-12-28 2009-07-02 Cisco Technology, Inc. System and Method for Encryption and Secure Transmission of Compressed Media
US8374854B2 (en) * 2008-03-28 2013-02-12 Southern Methodist University Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition
JP5383676B2 (ja) * 2008-05-30 2014-01-08 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
JP5679340B2 (ja) * 2008-12-22 2015-03-04 コーニンクレッカ フィリップス エヌ ヴェ 送信効果処理による出力信号の生成
JP5299327B2 (ja) * 2010-03-17 2013-09-25 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
JP2013007944A (ja) * 2011-06-27 2013-01-10 Sony Corp 信号処理装置、信号処理方法、及び、プログラム
ES2555136T3 (es) * 2012-02-17 2015-12-29 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
EP2717265A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
US9258645B2 (en) * 2012-12-20 2016-02-09 2236008 Ontario Inc. Adaptive phase discovery
IN2015MN01952A (ja) 2013-02-14 2015-08-28 Dolby Lab Licensing Corp
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
EP2830060A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
BR112017006325B1 (pt) * 2014-10-02 2023-12-26 Dolby International Ab Método de decodificação e decodificador para o realce de diálogo
US9413388B1 (en) * 2015-01-30 2016-08-09 Dell Products L.P. Modified huffman decoding
CN108786118B (zh) * 2017-05-03 2021-08-31 宏碁股份有限公司 音频集线器
JP6693551B1 (ja) * 2018-11-30 2020-05-13 株式会社ソシオネクスト 信号処理装置および信号処理方法
CN116806000B (zh) * 2023-08-18 2024-01-30 广东保伦电子股份有限公司 一种多通道任意扩展的分布式音频矩阵

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005520219A (ja) * 2002-09-19 2005-07-07 松下電器産業株式会社 オーディオ復号装置およびオーディオ復号方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0810926B2 (ja) * 1988-04-15 1996-01-31 三洋電機株式会社 Museデコーダ及びサブサンプル映像信号復調装置
EP1085504B1 (en) * 1996-11-07 2002-05-29 Matsushita Electric Industrial Co., Ltd. CELP-Codec
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US7289626B2 (en) * 2001-05-07 2007-10-30 Siemens Communications, Inc. Enhancement of sound quality for computer telephony systems
JP3762375B2 (ja) 2003-02-21 2006-04-05 ヤマト科学株式会社 プラズマ滅菌装置
JP4936894B2 (ja) 2004-08-27 2012-05-23 パナソニック株式会社 オーディオデコーダ、方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005520219A (ja) * 2002-09-19 2005-07-07 松下電器産業株式会社 オーディオ復号装置およびオーディオ復号方法

Also Published As

Publication number Publication date
DE602006010712D1 (de) 2010-01-07
KR101212900B1 (ko) 2012-12-14
US8081764B2 (en) 2011-12-20
CN101223821A (zh) 2008-07-16
KR20080033909A (ko) 2008-04-17
JPWO2007010785A1 (ja) 2009-01-29
EP1906706A1 (en) 2008-04-02
WO2007010785A1 (ja) 2007-01-25
EP1906706A4 (en) 2008-11-12
US20100235171A1 (en) 2010-09-16
EP1906706B1 (en) 2009-11-25
CN101223821B (zh) 2011-12-07

Similar Documents

Publication Publication Date Title
JP4944029B2 (ja) オーディオデコーダおよびオーディオ信号の復号方法
JP4918490B2 (ja) エネルギー整形装置及びエネルギー整形方法
JP4603037B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
JP5053849B2 (ja) マルチチャンネル音響信号処理装置およびマルチチャンネル音響信号処理方法
JP5166292B2 (ja) 主成分分析によりマルチチャネルオーディオ信号を符号化するための装置および方法
WO2011013381A1 (ja) 符号化装置および復号装置
US9514759B2 (en) Method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal
JP2012177939A (ja) 周波数領域のウィナーフィルターを用いた空間オーディオコーディングのための時間エンベロープの整形
JP4892184B2 (ja) 音響信号符号化装置及び音響信号復号装置
JP5299327B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP4809234B2 (ja) オーディオ符号化装置、復号化装置、方法、及びプログラム
JP2006325162A (ja) バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置
JP2007178684A (ja) マルチチャンネルオーディオ復号装置
JP2006337767A (ja) 低演算量パラメトリックマルチチャンネル復号装置および方法
JPWO2009087923A1 (ja) 信号分析制御、信号分析、信号制御のシステム、装置、方法及びプログラム
JP2007110565A (ja) マルチチャンネル音響復号化装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120301

R150 Certificate of patent or registration of utility model

Ref document number: 4944029

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350