JP6151866B2

JP6151866B2 - オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置

Info

Publication number: JP6151866B2
Application number: JP2016542765A
Authority: JP
Inventors: テキョリ; ヒョンオオ
Original assignee: ウィルスインスティテュートオブスタンダーズアンドテクノロジーインコーポレイティド
Priority date: 2013-12-23
Filing date: 2014-12-23
Publication date: 2017-06-21
Anticipated expiration: 2034-12-23
Also published as: KR20200108121A; KR20210016071A; KR101627661B1; US20190082285A1; US20180048981A1; CA2934856A1; EP4246513A2; CN108922552B; KR20180021258A; CN108597528B; BR112016014892A2; EP3089483A1; US20210368286A1; BR112016014892A8; BR112016014892B1; JP2017505039A; US10433099B2; CN106416302A; EP3697109A1; CN108922552A

Description

本発明は、オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置に関し、より詳しくは、入力オーディオ信号に対するフィルタリングを低演算量で実現するためのオーディオ信号のフィルタ生成方法およびパラメータ化装置に関する。

マルチチャネル信号をステレオで聴取するためのバイノーラルレンダリング（ｂｉｎａｕｒａｌｒｅｎｄｅｒｉｎｇ）は、ターゲットフィルタの長さが増加するほど多くの演算量が求められるという問題がある。特に、録音室の特性を反映したＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを用いる場合、その長さは４８，０００〜９６，０００サンプルに達したりもする。ここで、２２．２チャネルフォーマットのように入力チャネル数が増加すれば、その演算量は莫大である。

ここで、ｍはLまたはRであり、＊はコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）を意味する。上記の時間−ドメインコンボリューションは一般的に高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＦＦＴ）に基づいた高速コンボリューション（ｆａｓｔｃｏｎｖｏｌｕｔｉｏｎ）を用いて行われる。高速コンボリューションを用いてバイノーラルレンダリングを行う場合、入力チャネル数に該当する回数のＦＦＴと出力チャネル数に該当する回数の逆高速フーリエ変換（ＩｎｖｅｒｓｅＦＦＴ）を実行しなければならない。その上、マルチチャネルオーディオコーデックのようにリアルタイム再生環境の場合にディレイを考慮しなければならないため、ブロック単位（ｂｌｏｃｋ−ｗｉｓｅ）の高速コンボリューションを実行しなければならず、これは全体長さに対して単に高速コンボリューションを実行した時よりさらに多い演算量を消耗する。

しかし、大半のコード体系（ｃｏｄｉｎｇｓｃｈｅｍｅ）は周波数ドメインで行われ、一部のコード体系（例えば、ＨＥ−ＡＡＣ、ＵＳＡＣなど）の場合、復号化過程の最後の段階がＱＭＦドメインで行われる。よって、上記の数式１のようにバイノーラルフィルタリングが時間ドメインで行われる場合、チャネル数だけのＱＭＦ合成（ＱＭＦｓｙｎｔｈｅｓｉｓ）のための演算がさらに必要であるために非常に非効率的である。よって、バイノーラルレンダリングをＱＭＦドメインにおいて直接実行する場合に利得がある。

本発明は、マルチチャネルあるいはマルチオブジェクト信号をステレオで再生するにおいて、原信号のような立体感を保存するためのバイノーラルレンダリングにおいて多くの演算量を必要とするフィルタリング過程を音質損失を最小化し、且つ、非常に低い演算量で実現することを目的とする。

また、本発明は、入力信号そのものに歪みがある場合、高品質フィルタを介して歪みの拡散が発生することを最小化することを目的とする。

また、本発明は、非常に長い長さを有するＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタをさらに小さい長さのフィルタに実現することを目的とする。

また、本発明は、縮約されたＦＩＲフィルタを用いたフィルタリングの実行時、抜け落ちたフィルタ係数によって損傷した部分の歪みを最小化することを目的とする。

前記のような課題を解決するために、本発明は、次のようなオーディオ信号処理方法およびオーディオ信号処理装置を提供する。

先ず、本発明は、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも１つのＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数を受信するステップ；前記ＢＲＩＲフィルタ係数を複数のサブバンドフィルタ係数に変換するステップ；前記サブバンドフィルタ係数から抽出された残響時間情報を用いて該サブバンドの平均残響時間情報を得るステップ；前記得られた平均残響時間情報のカーブフィッティング（ｃｕｒｖｅｆｉｔｔｉｎｇ）のための少なくとも１つの係数を得るステップ；時間ドメイン上における前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を得るステップ；前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るステップ、前記フィルタ次数情報は前記得られたフラグ情報に応じて前記平均残響時間情報または前記少なくとも１つの係数を用いて得られ、少なくとも１つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なる；および前記得られたフィルタ次数情報を用いて前記サブバンドフィルタ係数を切断するステップ；を含むことを特徴とするオーディオ信号のフィルタ生成方法を提供する。

また、オーディオ信号のフィルタを生成するためのパラメータ化部であって、前記パラメータ化部は、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも１つのＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数を受信し；前記ＢＲＩＲフィルタ係数を複数のサブバンドフィルタ係数に変換し；前記サブバンドフィルタ係数から抽出された残響時間情報を用いて該サブバンドの平均残響時間情報を取得し；前記得られた平均残響時間情報のカーブフィッティング（ｃｕｒｖｅｆｉｔｔｉｎｇ）のための少なくとも１つの係数を取得し；時間ドメイン上における前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を取得し；前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るが、前記フィルタ次数情報は前記得られたフラグ情報に応じて前記平均残響時間情報または前記少なくとも１つの係数を用いて得られ、少なくとも１つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なり；前記得られたフィルタ次数情報を用いて前記サブバンドフィルタ係数を切断するパラメータ化部を提供する。

本発明の実施形態によれば、前記フラグ情報が前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過することを示す場合、前記フィルタ次数情報は前記得られた少なくとも１つの係数を用いてカーブフィッティングされた値に基づいて決定されることを特徴とする。

この時、前記カーブフィッティングされたフィルタ次数情報は、前記少なくとも１つの係数を用いて多項式カーブフィッティングされた値の整数単位の近似値を指数とする２の累乗値に決定されることを特徴とする。

また、本発明の実施形態によれば、前記フラグ情報が前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過しないことを示す場合、前記フィルタ次数情報は前記カーブフィッティングの実行なしで該サブバンドの前記平均残響時間情報に基づいて決定されることを特徴とする。

ここで、前記フィルタ次数情報は、前記平均残響時間情報のログスケールの整数単位の近似値を指数とする２の累乗値に決定されることを特徴とする。

また、前記フィルタ次数情報は、前記平均残響時間情報に基づいて決定された該サブバンドの基準切断長さと前記サブバンドフィルタ係数の原本長さのうちの小さい値に決定されることを特徴とする。

また、前記基準切断長さは２の累乗値であることを特徴とする。

また、前記フィルタ次数情報は各サブバンド別に１つの値を有することを特徴とする。

本発明の実施形態によれば、前記平均残響時間情報は、同一サブバンドの少なくとも１つのサブバンドフィルタ係数から抽出されたチャネル別の残響時間情報の平均値であることを特徴とする。

本発明の他の実施形態によれば、入力オーディオ信号を受信するステップ；前記入力オーディオ信号のバイノーラルフィルタリングのための少なくとも１つのＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数を受信するステップ；前記ＢＲＩＲフィルタ係数を複数のサブバンドフィルタ係数に変換するステップ；時間ドメイン上における前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を得るステップ；前記各サブバンドフィルタ係数を該サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて得られたフィルタ次数情報に基づいて切断するステップ、前記切断されたサブバンドフィルタ係数は前記フラグ情報に基づいてエネルギー補償が行われたフィルタ係数であり、少なくとも１つの前記切断されたサブバンドフィルタ係数の長さは他サブバンドの切断されたサブバンドフィルタ係数の長さとは異なる；および前記切断されたサブバンドフィルタ係数を用いて入力オーディオ信号の各サブバンド信号をフィルタリングするステップ；を含むことを特徴とするオーディオ信号処理方法を提供する。

また、入力オーディオ信号に対するバイノーラルレンダリングを実行するためのオーディオ信号処理装置であって、前記入力オーディオ信号のフィルタを生成するためのパラメータ化部；および前記入力オーディオ信号を受信し、前記パラメータ化部で生成されたパラメータを用いて前記入力オーディオ信号をフィルタリングするバイノーラルレンダリングユニットを含み、前記パラメータ化部は、前記入力オーディオ信号のバイノーラルフィルタリングのための少なくとも１つのＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数を受信し、前記ＢＲＩＲフィルタ係数を複数のサブバンドフィルタ係数に変換し、時間ドメイン上における前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を取得し、前記各サブバンドフィルタ係数を該サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて得られたフィルタ次数情報に基づいて切断するが、前記切断されたサブバンドフィルタ係数は前記フラグ情報に基づいてエネルギー補償が行われたフィルタ係数であり、少なくとも１つの前記切断されたサブバンドフィルタ係数の長さは他サブバンドの切断されたサブバンドフィルタ係数の長さとは異なり、前記バイノーラルレンダリングユニットは、前記切断されたサブバンドフィルタ係数を用いて前記入力オーディオ信号の各サブバンド信号をフィルタリングするオーディオ信号処理装置を提供する。

また、オーディオ信号のフィルタを生成するためのパラメータ化部であって、前記パラメータ化部は、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも１つのＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数を受信し；前記ＢＲＩＲフィルタ係数を複数のサブバンドフィルタ係数に変換し；時間ドメイン上における前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を取得し；前記各サブバンドフィルタ係数を該サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて得られたフィルタ次数情報に基づいて切断するが、前記切断されたサブバンドフィルタ係数は前記フラグ情報に基づいてエネルギー補償が行われたフィルタ係数であり、少なくとも１つの前記切断されたサブバンドフィルタ係数の長さは他サブバンドの切断されたサブバンドフィルタ係数の長さとは異なるパラメータ化部を提供する。

この時、前記エネルギー補償は、前記フラグ情報が前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過しないをことを示す場合に行われることを特徴とする。

また、前記エネルギー補償は、前記フィルタ次数情報に基づいた切断地点以前のフィルタ係数に対し、前記切断地点までのフィルタパワーを分け、該サブバンドフィルタ係数の全体フィルタパワーをかけることによって行われうことを特徴とする。

一実施形態によれば、前記フラグ情報が前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過することを示す場合、前記サブバンドフィルタ係数のうち前記切断されたサブバンドフィルタ係数以後の区間に対応する前記サブバンド信号の残響処理ステップをさらに含むことを特徴とする。

また、前記特性情報は該サブバンドフィルタ係数の残響時間情報を含み、前記フィルタ次数情報は各サブバンド別に１つの値を有することを特徴とする。

本発明のまた他の実施形態によれば、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも１つの時間ドメインＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数を受信するステップ；前記時間ドメインＢＲＩＲフィルタ係数の伝播時間情報を得るステップ、前記伝播時間情報は前記ＢＲＩＲフィルタ係数の初期サンプルから直接音までの時間を示す；前記得られた伝播時間情報以後の前記時間ドメインＢＲＩＲフィルタ係数をＱＭＦ変換して複数のサブバンドフィルタ係数を生成するステップ；前記サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて、前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るステップ、少なくとも１つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なる；および前記得られたフィルタ次数情報に基づいて前記サブバンドフィルタ係数を切断するステップ；を含むことを特徴とするオーディオのフィルタ生成方法を提供する。

また、オーディオ信号のフィルタを生成するためのパラメータ化部であって、前記パラメータ化部は、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも１つの時間ドメインＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数を受信し；前記時間ドメインＢＲＩＲフィルタ係数の伝播時間情報を得るが、前記伝播時間情報は前記ＢＲＩＲフィルタ係数の初期サンプルから直接音までの時間を示し；前記得られた伝播時間情報以後の前記時間ドメインＢＲＩＲフィルタ係数をＱＭＦ変換して複数のサブバンドフィルタ係数を生成し；前記サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて、前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るが、少なくとも１つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なり；前記得られたフィルタ次数情報に基づいて前記サブバンドフィルタ係数を切断するパラメータ化部を提供する。

この時、前記伝播時間情報を得るステップは、既に設定されたホップ単位でシフト（ｓｈｉｆｔｉｎｇ）してフレームエネルギーを測定するステップ；前記測定されたフレームエネルギーが既に設定された閾値より大きい最初のフレームを判別するステップ；および前記判別された最初のフレームの位置情報に基づいて前記伝播時間情報を得るステップ；を含むことを特徴とする。

また、前記フレームエネルギーを測定するステップは、同一時間領域に対する各チャネル別のフレームエネルギーの平均値を測定することを特徴とする。

一実施形態によれば、前記閾値は、前記測定されたフレームエネルギーの最大値より既に設定された比率の低い値に決定されることを特徴とする。

本発明の実施形態によれば、マルチチャネルあるいはマルチオブジェクト信号に対するバイノーラルレンダリングの実行時に音質損失を最小化し、且つ、演算量を画期的に減らすことができる。

本発明の実施形態によれば、従来の低電力装置においてリアルタイム処理が不可能であったマルチチャネルあるいはマルチオブジェクトオーディオ信号に対する高音質のバイノーラルレンダリングが可能となるようにする。

本発明は、オーディオ信号を含む様々な形態のマルチメディア信号のフィルタリングを低演算量で効率的に行う方法を提供する。

本発明の実施形態によるオーディオ信号デコーダを示すブロック図である。本発明の一実施形態によるバイノーラルレンダラーの各構成を示すブロック図である。本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。本発明の実施形態によるバイノーラルレンダリングのためのＦＩＲフィルタ生成方法を示す図である。本発明の実施形態によるバイノーラルレンダリングのためのＦＩＲフィルタ生成方法を示す図である。本発明の実施形態によるバイノーラルレンダリングのためのＦＩＲフィルタ生成方法を示す図である。本発明のＰ−パートレンダリング部の様々な実施形態を示す図である。本発明のＱＴＤＬプロセッシングの様々な実施形態を示す図である。本発明のＱＴＤＬプロセッシングの様々な実施形態を示す図である。本発明のＢＲＩＲパラメータ化部の各構成を示すブロック図である。本発明のＦ−パートパラメータ化部の各構成を示すブロック図である。本発明のＦ−パートパラメータ生成部の細部構成を示すブロック図である。ブロック単位の高速コンボリューションのためのＦＦＴフィルタ係数生成方法の実施形態を示す図である。ブロック単位の高速コンボリューションのためのＦＦＴフィルタ係数生成方法の実施形態を示す図である。本発明のＱＴＤＬパラメータ化部の各構成を示すブロック図である。

本明細書で用いられる用語は本発明における機能を考慮して可能な限り現在広く用いられる一般的な用語を選択しているが、これは当分野における技術者の意図、慣例または新しい技術の出現などによって異なりうる。また、特定の場合には出願人が任意に選定した用語もあり、この場合には該発明の説明の部分にその意味を記載することにする。よって、本明細書で用いられる用語は、単純な用語の名称でなく、その用語が有した実質的な意味と本明細書の全般にわたった内容に基づいて解釈しなければならないということを明らかにしておく。

図１は、本発明の実施形態によるオーディオ信号デコーダを示すブロック図である。本発明のオーディオ信号デコーダは、コアデコーダ１０、レンダリングユニット２０、ミキサー３０、およびポストプロセッシングユニット４０を含む。

先ず、コアデコーダ１０は、スピーカー（ｌｏｕｄｓｐｅａｋｅｒ）チャネル信号、個別（ｄｉｓｃｒｅｔｅ）オブジェクト信号、オブジェクトダウンミックス信号および事前−レンダリングされた（ｐｒｅ−ｒｅｎｄｅｒｅｄ）信号などを復号化する。一実施形態によれば、前記コアデコーダ１０においては、ＵＳＡＣ（ＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ）ベースのコーデックが用いられることができる。コアデコーダ１０は、受信されたビットストリームを復号化してレンダリングユニット２０に伝達する。

レンダリングユニット２０は、コアデコーダ１０によって復号化された信号を再生レイアウト（ｒｅｐｒｏｄｕｃｔｉｏｎｌａｙｏｕｔ）情報を用いてレンダリングする。レンダリングユニット２０は、フォーマットコンバータ２２、オブジェクトレンダラー２４、ＯＡＭデコーダ２５、ＳＡＯＣデコーダ２６およびＨＯＡデコーダ２８を含むことができる。レンダリングユニット２０は、復号化された信号のタイプに応じて前記構成のうちいずれか１つを用いてレンダリングを行う。

フォーマットコンバータ２２は、送信されたチャネル信号を出力スピーカチャネル信号に変換する。すなわち、フォーマットコンバータ２２は、送信されたチャネル構成（ｃｏｎｆｉｇｕｒａｔｉｏｎ）と再生しようとするスピーカチャネル構成間の変換を行う。仮に、出力スピーカチャネルの個数（例えば、５．１チャネル）が送信されたチャネルの個数（例えば、２２．２チャネル）より少ないかまたは送信されたチャネル構成と再生しようとするチャネル構成が異なる場合、フォーマットコンバータ２２は送信されたチャネル信号に対するダウンミックスを行う。本発明のオーディオ信号デコーダは、入力チャネル信号と出力スピーカチャネル信号間の組み合わせを用いて最適のダウンミックスマトリックスを生成し、前記マトリックスを用いてダウンミックスを行うことができる。本発明の実施形態によれば、フォーマットコンバータ２２が処理するチャネル信号には事前−レンダリングされたオブジェクト信号が含まれることができる。一実施形態によれば、オーディオ信号の符号化前に少なくとも１つのオブジェクト信号が事前−レンダリングされてチャネル信号にミックス（ｍｉｘ）できる。このようにミックスされたオブジェクト信号は、チャネル信号と共にフォーマットコンバータ２２によって出力スピーカチャネル信号に変換されることができる。

オブジェクトレンダラー２４およびＳＡＯＣデコーダ２６は、オブジェクトベースのオーディオ信号に対するレンダリングを行う。オブジェクトベースのオーディオ信号には、個別オブジェクトウェーブフォームとパラメトリックオブジェクトウェーブフォームが含まれることができる。個別オブジェクトウェーブフォームの場合、各オブジェクト信号はモノフォニック（ｍｏｎｏｐｈｏｎｉｃ）ウェーブフォームでエンコーダに提供され、エンコーダは単一チャネルエレメント（ＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔｓ、ＳＣＥｓ）を用いて各オブジェクト信号を送信する。パラメトリックオブジェクトウェーブフォームの場合、複数のオブジェクト信号が少なくとも１つのチャネル信号にダウンミックスされ、各オブジェクトの特徴とこれら間の関係がＳＡＯＣ（ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）パラメータで表現される。オブジェクト信号はダウンミックスされてコアコーデックで符号化され、この時に生成されるパラメトリック情報が共にデコーダに送信される。

一方、個別オブジェクトウェーブフォームまたはパラメトリックオブジェクトウェーブフォームがオーディオ信号デコーダに送信される時、それに対応する圧縮されたオブジェクトメタデータが共に送信されることができる。オブジェクトメタデータは、オブジェクト属性を時間と空間単位で量子化して３次元空間における各オブジェクトの位置およびゲイン値を指定する。レンダリングユニット２０のＯＡＭデコーダ２５は、圧縮されたオブジェクトメタデータを受信し、それを復号化してオブジェクトレンダラー２４および／またはＳＡＯＣデコーダ２６に伝達する。

オブジェクトレンダラー２４は、オブジェクトメタデータを用いて各オブジェクト信号を与えられた再生フォーマットに応じてレンダリングする。この時、各オブジェクト信号は、オブジェクトメタデータに基づいて特定の出力チャネルにレンダリングされることができる。ＳＡＯＣデコーダ２６は、復号化されたＳＡＯＣ送信チャネルとパラメトリック情報からオブジェクト／チャネル信号を復元する。前記ＳＡＯＣデコーダ２６は、再生レイアウト情報とオブジェクトメタデータに基づいて出力オーディオ信号を生成することができる。このように、オブジェクトレンダラー２４およびＳＡＯＣデコーダ２６はオブジェクト信号をチャネル信号にレンダリングすることができる。

ＨＯＡデコーダ２８は、ＨＯＡ（ＨｉｇｈｅｒＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ）信号およびＨＯＡ付加情報を受信し、それを復号化する。ＨＯＡデコーダ２８は、チャネル信号やオブジェクト信号を別途の数式でモデリングしてサウンドシーン（ｓｏｕｎｄｓｃｅｎｅ）を生成する。生成されたサウンドシーンにおいてスピーカがある空間上の位置を選択すれば、スピーカチャネル信号にレンダリングが行われることができる。

一方、図１には示されていないが、レンダリングユニット２０の各構成要素にオーディオ信号が伝達される時、前処理過程としてダイナミックレンジ制御（ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌ、ＤＲＣ）が行われることができる。ＤＲＣは再生するオーディオ信号の動的範囲を一定レベルに制限することであり、既に設定された閾値（ｔｈｒｅｓｈｏｌｄ）より小さい音はより大きく、既に設定された閾値より大きい音はより小さく調整する。

レンダリングユニット２０によって処理されたチャネルベースのオーディオ信号およびオブジェクトベースのオーディオ信号はミキサー３０に伝達される。ミキサー３０は、チャネルベースのウェーブフォームとレンダリングされたオブジェクトウェーブフォームのディレイ（ｄｅｌａｙ）を調整し、それをサンプル単位で合算する。ミキサー３０によって合算されたオーディオ信号はポストプロセッシングユニット４０に伝達される。

ポストプロセッシングユニット４０は、スピーカレンダラー１００とバイノーラルレンダラー２００とを含む。スピーカレンダラー１００は、ミキサー３０から伝達されたマルチチャネルおよび／またはマルチオブジェクトオーディオ信号を出力するためのポストプロセッシングを行う。このようなポストプロセッシングには、ダイナミックレンジ制御（ＤＲＣ）、音量正規化（ＬｏｕｄｎｅｓｓＮｏｒｍａｌｉｚａｔｉｏｎ、ＬＮ）およびピークリミッタ（ＰｅａｋＬｉｍｉｔｅｒ、ＰＬ）などが含まれることができる。

バイノーラルレンダラー２００は、マルチチャネルおよび／またはマルチオブジェクトオーディオ信号のバイノーラルダウンミックス信号を生成する。バイノーラルダウンミックス信号は、各入力チャネル／オブジェクト信号が３次元上に位置した仮想の音源によって表現されるようにする２チャネルのオーディオ信号である。バイノーラルレンダラー２００は、スピーカレンダラー１００に供給されるオーディオ信号を入力信号として受信することができる。バイノーラルレンダリングはＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタに基づいて行われ、時間ドメインまたはＱＭＦドメイン上で行われることができる。実施形態によれば、バイノーラルレンダリングの後処理過程として、前述したダイナミックレンジ制御（ＤＲＣ）、音量正規化（ＬＮ）およびピークリミッタ（ＰＬ）などがさらに行われることができる。

図２は、本発明の一実施形態によるバイノーラルレンダラーの各構成を示すブロック図である。図示すように、本発明の実施形態によるバイノーラルレンダラー２００は、ＢＲＩＲパラメータ化部３００、高速コンボリューション部２３０、後期残響生成部２４０、ＱＴＤＬプロセッシング部２５０、およびミキサー＆コンバイナ２６０を含むことができる。

バイノーラルレンダラー２００は、様々なタイプの入力信号に対するバイノーラルレンダリングを行って、３Ｄオーディオヘッドホン信号（すなわち、３Ｄオーディオ２チャネル信号）を生成する。この時、入力信号は、チャネル信号（すなわち、スピーカチャネル信号）、オブジェクト信号およびＨＯＡ信号のうち少なくとも１つを含むオーディオ信号であってもよい。本発明の他の実施形態によれば、バイノーラルレンダラー２００が別途のデコーダを含む場合、前記入力信号は、前述したオーディオ信号の符号化されたビットストリームであってもよい。バイノーラルレンダリングは、復号化された入力信号をバイノーラルダウンミックス信号に変換して、ヘッドホンで聴取時にサラウンド音響を体験することができるようにする。

すなわち、バイノーラルレンダリングは、ＱＭＦドメインのチャネル信号またはオブジェクト信号を複数のサブバンド信号に分け、各サブバンド信号をそれに対応するＢＲＩＲサブバンドフィルタとコンボリューションした後に合算する方法により行われることができる。

ＢＲＩＲパラメータ化部３００は、ＱＭＦドメインにおけるバイノーラルレンダリングのためにＢＲＩＲフィルタ係数を変換および編集し、各種パラメータを生成する。先ず、ＢＲＩＲパラメータ化部３００は、マルチチャネルまたはマルチオブジェクトに対する時間ドメインＢＲＩＲフィルタ係数を受信し、それをＱＭＦドメインＢＲＩＲフィルタ係数に変換する。この時、ＱＭＦドメインＢＲＩＲフィルタ係数は、複数の周波数バンドに各々対応する複数のサブバンドフィルタ係数を含む。本発明において、サブバンドフィルタ係数は、ＱＭＦ変換されたサブバンドドメインの各ＢＲＩＲフィルタ係数を示す。本明細書において、サブバンドフィルタ係数はＢＲＩＲサブバンドフィルタ係数と称することもできる。ＢＲＩＲパラメータ化部３００は、ＱＭＦドメインの複数のＢＲＩＲサブバンドフィルタ係数を各々編集し、編集されたサブバンドフィルタ係数を高速コンボリューション部２３０などに伝達することができる。本発明の実施形態によれば、ＢＲＩＲパラメータ化部３００はバイノーラルレンダラー２００の一構成要素として含まれてもよく、別途の装置として備えられてもよい。一実施形態によれば、ＢＲＩＲパラメータ化部３００を除いた高速コンボリューション部２３０、後期残響生成部２４０、ＱＴＤＬプロセッシング部２５０、およびミキサー＆コンバイナ２６０を含む構成がバイノーラルレンダリングユニット２２０に分類されることができる。

一実施形態によれば、ＢＲＩＲパラメータ化部３００は、仮想再生空間の少なくとも１つの位置に対応するＢＲＩＲフィルタ係数を入力として受信することができる。前記仮想再生空間の各位置はマルチチャネルシステムの各スピーカ位置に対応する。一実施形態によれば、ＢＲＩＲパラメータ化部３００が受信した各ＢＲＩＲフィルタ係数は、バイノーラルレンダラー２００の入力信号の各チャネルまたは各オブジェクトに直接マッチングされることができる。その反面、本発明の他の実施形態によれば、前記受信された各ＢＲＩＲフィルタ係数は、バイノーラルレンダラー２００の入力信号に独立した構成（ｃｏｎｆｉｇｕｒａｔｉｏｎ）を有することができる。すなわち、ＢＲＩＲパラメータ化部３００が受信したＢＲＩＲフィルタ係数のうち少なくとも一部はバイノーラルレンダラー２００の入力信号に直接マッチングされなくてもよく、受信されたＢＲＩＲフィルタ係数の個数は入力信号のチャネルおよび／またはオブジェクトの総数より小さいか大きくてもよい。

ＢＲＩＲパラメータ化部３００は、制御パラメータ情報の入力を追加的に受け、入力された制御パラメータ情報に基づいて前述したバイノーラルレンダリングのためのパラメータを生成することができる。制御パラメータ情報は後述する実施形態のように複雑度−クォリティー制御パラメータなどを含むことができ、ＢＲＩＲパラメータ化部３００の各種パラメータ化過程のための閾値として用いられることができる。このような入力値に基づき、ＢＲＩＲパラメータ化部３００は、バイノーラルレンダリングパラメータを生成し、それをバイノーラルレンダリングユニット２２０に伝達する。仮に入力ＢＲＩＲフィルタ係数や制御パラメータ情報が変更される場合、ＢＲＩＲパラメータ化部３００はバイノーラルレンダリングパラメータを再計算してバイノーラルレンダリングユニットに伝達することができる。

本発明の実施形態によれば、ＢＲＩＲパラメータ化部３００は、バイノーラルレンダラー２００の入力信号の各チャネルまたは各オブジェクトに対応するＢＲＩＲフィルタ係数を変換および編集してバイノーラルレンダリングユニット２２０に伝達することができる。前記対応するＢＲＩＲフィルタ係数は、各チャネルまたは各オブジェクトに対するマッチングＢＲＩＲまたはフォールバック（ｆａｌｌｂａｃｋ）ＢＲＩＲであってもよい。ＢＲＩＲマッチングは、仮想再生空間上で各チャネルまたは各オブジェクトの位置をターゲットとするＢＲＩＲフィルタ係数が存在するか否かによって決定される。この時、各チャネル（またはオブジェクト）の位置情報はチャネル構成をシグナリングする入力パラメータから得られる。仮に、入力信号の各チャネルまたは各オブジェクトの位置のうち少なくとも１つをターゲットとするＢＲＩＲフィルタ係数が存在する場合、該ＢＲＩＲフィルタ係数は入力信号のマッチングＢＲＩＲであってもよい。しかし、特定チャネルまたはオブジェクトの位置をターゲットとするＢＲＩＲフィルタ係数が存在しない場合、ＢＲＩＲパラメータ化部３００は該チャネルまたはオブジェクトと最も類似する位置をターゲットとするＢＲＩＲフィルタ係数を該チャネルまたはオブジェクトに対するフォールバックＢＲＩＲとして提供することができる。

先ず、所望の位置（特定チャネルまたはオブジェクト）と既に設定された範囲内の高度および方位角偏差を有するＢＲＩＲフィルタ係数がある場合には該ＢＲＩＲフィルタ係数が選択される。例えば、所望の位置と同一な高度および＋／−２０゜以内の方位角偏差を有するＢＲＩＲフィルタ係数が選択されることができる。仮に、それに該当するＢＲＩＲフィルタ係数がない場合には、ＢＲＩＲフィルタ係数セット（ｓｅｔ）のうち前記所望の位置と最小の幾何学的距離を有するＢＲＩＲフィルタ係数が選択される。すなわち、該ＢＲＩＲの位置と前記所望の位置間の幾何学的距離を最小とするＢＲＩＲフィルタ係数が選択されることができる。ここで、ＢＲＩＲの位置は該ＢＲＩＲフィルタ係数に対応するスピーカーの位置を示す。また、２つの位置間の幾何学的距離は２つの位置の高度偏差の絶対値と方位角偏差の絶対値を合算した値と定義されることができる。

一方、本発明の他の実施形態によれば、ＢＲＩＲパラメータ化部３００は、受信されたＢＲＩＲフィルタ係数の全体を変換および編集してバイノーラルレンダリングユニット２２０に伝達することができる。この時、入力信号の各チャネルまたは各オブジェクトに対応するＢＲＩＲフィルタ係数（または、編集されたＢＲＩＲフィルタ係数）の選択過程は、バイノーラルレンダリングユニット２２０で行われることができる。

仮に、ＢＲＩＲパラメータ化部３００がバイノーラルレンダリングユニット２２０とは別途の装置で構成される場合、ＢＲＩＲパラメータ化部３００で生成されたバイノーラルレンダリングパラメータはビットストリームでレンダリングユニット２２０に送信されることができる。バイノーラルレンダリングユニット２２０は、受信されたビットストリームを復号化してバイノーラルレンダリングパラメータを得ることができる。この時、送信されるバイノーラルレンダリングパラメータはバイノーラルレンダリングユニット２２０の各サブユニットにおけるプロセッシングのために必要な各種パラメータを含み、変換および編集されたＢＲＩＲフィルタ係数、または原本ＢＲＩＲフィルタ係数などを含むことができる。

バイノーラルレンダリングユニット２２０は高速コンボリューション部２３０、後期残響生成部２４０およびＱＴＤＬプロセッシング部２５０を含み、マルチチャネルおよび／またはマルチオブジェクト信号を含むマルチオーディオ信号を受信する。本明細書では、マルチチャネルおよび／またはマルチオブジェクト信号を含む入力信号をマルチオーディオ信号と称することにする。図２では一実施形態によりバイノーラルレンダリングユニット２２０がＱＭＦドメインのマルチチャネル信号を受信するものとして示されているが、バイノーラルレンダリングユニット２２０の入力信号には時間ドメインマルチチャネル信号およびマルチオブジェクト信号などが含まれることができる。また、バイノーラルレンダリングユニット２２０が別途のデコーダをさらに含む場合、前記入力信号は前記マルチオーディオ信号の符号化されたビットストリームであってもよい。それに加え、本明細書ではマルチオーディオ信号に対するＢＲＩＲレンダリングを行うケースを基準に本発明を説明するが、本発明はこれに限定されるものではない。すなわち、本発明で提供する特徴はＢＲＩＲでない他種類のレンダリングフィルタに適用されてもよく、マルチオーディオ信号でない単一チャネルまたは単一オブジェクトのオーディオ信号に対して適用されてもよい。

高速コンボリューション部２３０は、入力信号とＢＲＩＲフィルタ間の高速コンボリューションを行って、入力信号に対する直接音（ｄｉｒｅｃｔｓｏｕｎｄ）と初期反射音（ｅａｒｌｙｒｅｆｌｅｃｔｉｏｎ）を処理する。このために、高速コンボリューション部２３０は、切断された（ｔｒｕｎｃａｔｅｄ）ＢＲＩＲを用いて高速コンボリューションを行うことができる。切断されたＢＲＩＲは各サブバンド周波数に従属的に切断された複数のサブバンドフィルタ係数を含み、ＢＲＩＲパラメータ化部３００によって生成される。この時、各切断されたサブバンドフィルタ係数の長さは該サブバンドの周波数に従属的に決定される。高速コンボリューション部２３０は、サブバンドに応じて互いに異なる長さを有する切断されたサブバンドフィルタ係数を用いることによって、周波数ドメインにおける可変次数（ｖａｒｉａｂｌｅｏｒｄｅｒ）フィルタリングを行うことができる。すなわち、各周波数バンド別にＱＭＦドメインサブバンドオーディオ信号とそれに対応するＱＭＦドメインの切断されたサブバンドフィルタ間の高速コンボリューションが行われることができる。本明細書において、直接音および初期反射音（Ｄｉｒｅｃｔｓｏｕｎｄ＆Ｅａｒｌｙｒｅｆｌｅｃｔｉｏｎ、Ｄ＆Ｅ）パートはＦ（ｆｒｏｎｔ）−パートと称することができる。

後期残響生成部２４０は、入力信号に対する後期残響（ｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ）信号を生成する。後期残響信号は、高速コンボリューション部２３０で生成された直接音および初期反射音以後の出力信号を示す。後期残響生成部２４０は、ＢＲＩＲパラメータ化部３００から伝達された各サブバンドフィルタ係数から決定された残響時間情報に基づいて入力信号を処理することができる。本発明の実施形態によれば、後期残響生成部２４０は、入力オーディオ信号に対するモノまたはステレオダウンミックス信号を生成し、生成されたダウンミックス信号に対する後期残響処理を行うことができる。本明細書において、後期残響（ＬａｔｅＲｅｖｅｒｂｅｒａｔｉｏｎ、ＬＲ）パートはＰ（ｐａｒａｍｅｔｒｉｃ）−パートと称することができる。

ＱＴＤＬ（ＱＭＦｄｏｍａｉｎＴａｐｐｅｄＤｅｌａｙＬｉｎｅ）プロセッシング部２５０は、入力オーディオ信号のうちの高周波数バンドの信号を処理する。ＱＴＤＬプロセッシング部２５０は、高周波数バンドの各サブバンド信号に対応する少なくとも１つのパラメータをＢＲＩＲパラメータ化部３００から受信し、受信されたパラメータを用いてＱＭＦドメインにおいてタップ−ディレイラインフィルタリングを行う。本発明の実施形態によれば、バイノーラルレンダラー２００は既に設定された定数または既に設定された周波数バンドに基づいて入力オーディオ信号を低周波数バンド信号と高周波数バンド信号に分離し、低周波数バンド信号は高速コンボリューション部２３０および後期残響生成部２４０において、高周波数バンド信号はＱＴＤＬプロセッシング部２５０において各々処理することができる。

高速コンボリューション部２３０、後期残響生成部２４０およびＱＴＤＬプロセッシング部２５０は、各々２チャネルのＱＭＦドメインサブバンド信号を出力する。ミキサー＆コンバイナ２６０は、高速コンボリューション部２３０の出力信号、後期残響生成部２４０の出力信号、およびＱＴＤＬプロセッシング部２５０の出力信号を結合してミキシングを行う。この時、出力信号の結合は、２チャネルの左、右出力信号に対して各々別途に行われる。バイノーラルレンダラー２００は、結合された出力信号をＱＭＦ合成して時間ドメインの最終出力オーディオ信号を生成する。

以下、各図面を参照して図２の高速コンボリューション部２３０、後期残響生成部２４０、ＱＴＤＬプロセッシング部２５０、およびこれらの組み合わせに対する様々な実施形態を具体的に説明する。

図３〜図７は、本発明によるオーディオ信号処理装置の様々な実施形態を示している。本発明において、オーディオ信号処理装置は、狭義の意味としては、図２に示されたバイノーラルレンダラー２００またはバイノーラルレンダリングユニット２２０を指し示すことができる。しかし、本発明において、オーディオ信号処理装置は、広義の意味としては、バイノーラルレンダラーを含む図１のオーディオ信号デコーダを指し示すことができる。図３〜図７に示された各バイノーラルレンダラーは、説明の便宜のため、図２に示されたバイノーラルレンダラー２００の一部構成だけを示すことができる。また、以下、本明細書ではマルチチャネル入力信号に対する実施形態を主に記述するが、別途の言及がない場合、チャネル、マルチチャネルおよびマルチチャネル入力信号は各々オブジェクト、マルチオブジェクトおよびマルチオブジェクト入力信号を含む概念として用いられることができる。それのみならず、マルチチャネル入力信号は、ＨＯＡ復号およびレンダリングされた信号を含む概念として用いられることもできる。

図３は、本発明の一実施形態によるバイノーラルレンダラー２００Ａを示している。ＢＲＩＲを用いたバイノーラルレンダリングを一般化すれば、Ｍ個のチャネルを有するマルチチャネルの入力信号に対して０個の出力信号を得るためのＭ−ｔｏ−０プロセッシングである。バイノーラルフィルタリングは、この過程で各々の入力チャネルと出力チャネルに対応するフィルタ係数を用いたフィルタリングとみなすことができる。図３において、原本フィルタセットＨは、各チャネル信号のスピーカ位置から左、右の耳の位置までの伝達関数を意味する。このような伝達関数中、一般的な聴音空間、すなわち、残響がある空間で測定したものをＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ（ＢＲＩＲ）と呼ぶ。その反面、再生空間の影響がないように無響室で測定したものをＨｅａｄＲｅｌａｔｅｄＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ（ＨＲＩＲ）といい、それに対する伝達関数をＨｅａｄＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ（ＨＲＴＦ）と呼ぶ。よって、ＢＲＩＲは、ＨＲＴＦとは異なり、方向情報だけでなく、再生空間の情報を共に含んでいる。一実施形態によれば、ＨＲＴＦと人工残響器（ａｒｔｉｆｉｃｉａｌｒｅｖｅｒｂｅｒａｔｏｒ）を用いてＢＲＩＲを代えることもできる。本明細書ではＢＲＩＲを用いたバイノーラルレンダリングについて説明するが、本発明はこれに限定されず、ＨＲＩＲ、ＨＲＴＦを含む様々な形態のＦＩＲフィルタを用いたバイノーラルレンダリングにも同一または相応する方法により適用可能である。また、本発明は、オーディオ信号のバイノーラルレンダリングだけでなく、入力信号の様々な形態のフィルタリング演算時にも適用可能である。一方、ＢＲＩＲは前述したように９６Ｋ個のサンプル長さを有することができ、マルチチャネルバイノーラルレンダリングはＭ＊０個の互いに異なるフィルタを用いて行われるので高演算量の処理過程が要求される。

本発明の実施形態によれば、ＢＲＩＲパラメータ化部３００は、演算量の最適化のために原本フィルタセットＨから変形されたフィルタ係数を生成することができる。ＢＲＩＲパラメータ化部３００は、原本フィルタ係数をＦ（ｆｒｏｎｔ）−パート係数とＰ（ｐａｒａｍｅｔｒｉｃ）−パート係数に分離する。ここで、Ｆ−パートは直接音および初期反射音（Ｄ＆Ｅ）パートを示し、Ｐ−パートは後期残響（ＬＲ）パートを示す。例えば、９６Ｋサンプル長さを有する原本フィルタ係数は前の４Ｋサンプルまでだけを切断したＦ−パートと、残りの９２Ｋサンプルに対応する部分であるＰ−パートに各々分離することができる。

バイノーラルレンダリングユニット２２０は、ＢＲＩＲパラメータ化部３００からＦ−パート係数およびＰ−パート係数を各々受信し、それを用いてマルチチャネル入力信号をレンダリングする。本発明の実施形態によれば、図２に示された高速コンボリューション部２３０はＢＲＩＲパラメータ化部３００から受信されたＦ−パート係数を用いてマルチオーディオ信号をレンダリングし、後期残響生成部２４０はＢＲＩＲパラメータ化部３００から受信されたＰ−パート係数を用いてマルチオーディオ信号をレンダリングすることができる。すなわち、高速コンボリューション部２３０と後期残響生成部２４０は、各々、本発明のＦ−パートレンダリング部とＰ−パートレンダリング部に対応する。一実施形態によれば、Ｆ−パートレンダリング（Ｆ−パート係数を用いたバイノーラルレンダリング）は通常のＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタで実現され、Ｐ−パートレンダリング（Ｐ−パート係数を用いたバイノーラルレンダリング）はパラメトリックな方法で実現されることができる。一方、ユーザーまたは制御システムによって提供される複雑度−クォリティー制御入力は、Ｆ−パートおよび／またはＰ−パートに生成される情報を決定するのに用いられることができる。

図４は、本発明の他の実施形態によるバイノーラルレンダラー２００Ｂであり、Ｆ−パートレンダリングを実現するより詳細な方法を示している。説明の便宜のため、図４ではＰ−パートレンダリング部は省略した。また、図４ではＱＭＦドメインで実現されたフィルタを示しているが、本発明はこれに限定されず、他ドメインのサブバンドプロセッシングに全て適用可能である。

図４を参照すれば、Ｆ−パートレンダリングは、ＱＭＦドメイン上で高速コンボリューション部２３０によって行われることができる。ＱＭＦドメイン上におけるレンダリングのために、ＱＭＦ分析部２２２は、時間ドメイン入力信号ｘ０、ｘ１、…ｘ＿Ｍ−１をＱＭＦドメイン信号Ｘ０、Ｘ１、…Ｘ＿Ｍ−１に変換する。この時、入力信号ｘ０、ｘ１、…ｘ＿Ｍ−１はマルチチャネルオーディオ信号、例えば、２２．２チャネルスピーカに対応するチャネル信号であってもよい。ＱＭＦドメインは全６４個のサブバンドを用いることができるが、本発明はこれに限定されるものではない。一方、本発明の一実施形態によれば、ＱＭＦ分析部２２２は、バイノーラルレンダラー２００Ｂにおいて省略されてもよい。ＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）を用いるＨＥ−ＡＡＣやＵＳＡＣの場合、ＱＭＦドメインにおいてプロセッシングを行うため、バイノーラルレンダラー２００Ｂは、ＱＭＦ分析なしで直ちにＱＭＦドメイン信号Ｘ０、Ｘ１、…Ｘ＿Ｍ−１を入力として受信することができる。よって、このようにＱＭＦドメイン信号を直接入力として受信する場合、本発明によるバイノーラルレンダラーにおいて用いるＱＭＦは、以前処理部（例えば、ＳＢＲ）において用いるＱＭＦと同一であることを特徴とする。ＱＭＦ合成部２４４は、バイノーラルレンダリングが行われた２チャネルの左、右信号Ｙ＿Ｌ、Ｙ＿ＲをＱＭＦ合成して時間ドメインの２チャネル出力オーディオ信号ｙＬ、ｙＲを生成する。

図５〜図７は、各々、Ｆ−パートレンダリングとＰ−パートレンダリングを共に行うバイノーラルレンダラー２００Ｃ，２００Ｄ，２００Ｅの実施形態を示している。図５〜図７の実施形態において、Ｆ−パートレンダリングはＱＭＦドメイン上で高速コンボリューション部２３０によって行われ、Ｐ−パートレンダリングはＱＭＦドメインまたは時間ドメイン上で後期残響生成部２４０によって行われる。図５〜図７の実施形態において、以前の図面の実施形態と重複する部分については具体的な説明は省略する。

図５を参照すれば、バイノーラルレンダラー２００Ｃは、Ｆ−パートレンダリングおよびＰ−パートレンダリングを全てＱＭＦドメインにおいて行うことができる。すなわち、バイノーラルレンダラー２００ＣのＱＭＦ分析部２２２は、時間ドメイン入力信号ｘ０、ｘ１、…ｘ＿Ｍ−１をＱＭＦドメイン信号Ｘ０、Ｘ１、…Ｘ＿Ｍ−１に変換して、各々、高速コンボリューション部２３０および後期残響生成部２４０に伝達する。高速コンボリューション部２３０および後期残響生成部２４０は、ＱＭＦドメイン信号Ｘ０、Ｘ１、…Ｘ＿Ｍ−１をレンダリングして、各々、２チャネルの出力信号Ｙ＿Ｌ、Ｙ＿ＲおよびＹ＿Ｌｐ、Ｙ＿Ｒｐを生成する。この時、高速コンボリューション部２３０および後期残響生成部２４０は、ＢＲＩＲパラメータ化部３００によって受信したＦ−パートフィルタ係数およびＰ−パートフィルタ係数を各々用いてレンダリングを行うことができる。Ｆ−パートレンダリングの出力信号Ｙ＿Ｌ、Ｙ＿ＲとＰ−パートレンダリングの出力信号Ｙ＿Ｌｐ、Ｙ＿Ｒｐは、ミキサー＆コンバイナ２６０において左、右チャネル別に結合されてＱＭＦ合成部２２４に伝達される。ＱＭＦ合成部２２４は、入力された２チャネルの左、右信号をＱＭＦ合成して時間ドメインの２チャネル出力オーディオ信号ｙＬ、ｙＲを生成する。

図６を参照すれば、バイノーラルレンダラー２００Ｄは、ＱＭＦドメインにおいてＦ−パートレンダリングを、時間ドメインにおいてＰ−パートレンダリングを各々行うことができる。バイノーラルレンダラー２００ＤのＱＭＦ分析部２２２は、時間ドメイン入力信号をＱＭＦ変換して高速コンボリューション部２３０に伝達する。高速コンボリューション部２３０は、ＱＭＦドメイン信号をＦ−パートレンダリングして２チャネルの出力信号Ｙ＿Ｌ、Ｙ＿Ｒを生成する。ＱＭＦ合成部２２４は、Ｆ−パートレンダリングの出力信号を時間ドメイン出力信号に変換してミキサー＆コンバイナ２６０に伝達する。一方、後期残響生成部２４０は、時間ドメイン入力信号を直接受信してＰ−パートレンダリングを行う。Ｐ−パートレンダリングの出力信号ｙＬｐ、ｙＲｐはミキサー＆コンバイナ２６０に伝達される。ミキサー＆コンバイナ２６０は、時間ドメイン上でＦ−パートレンダリング出力信号およびＰ−パートレンダリング出力信号を各々結合して時間ドメインの２チャネル出力オーディオ信号ｙＬ、ｙＲを生成する。

図５と図６の実施形態では、Ｆ−パートレンダリングおよびＰ−パートレンダリングが各々並列（ｐａｒａｌｌｅｌ）に行われる反面、図７の実施形態によれば、バイノーラルレンダラー２００ＥはＦ−パートレンダリングとＰ−パートレンダリングを各々順次（ｓｅｑｕｅｎｔｉａｌ）に行うことができる。すなわち、高速コンボリューション部２３０はＱＭＦ変換された入力信号をＦ−パートレンダリングし、Ｆ−パートレンダリングされた２チャネル信号Ｙ＿Ｌ、Ｙ＿ＲはＱＭＦ合成部２２４において時間ドメイン信号に変換された後に後期残響生成部２４０に伝達される。後期残響生成部２４０は、入力された２チャネル信号に対するＰ−パートレンダリングを行って、時間ドメインの２チャネル出力オーディオ信号ｙＬ、ｙＲを生成する。

図５〜図７は各々Ｆ−パートレンダリングとＰ−パートレンダリングを行う一実施形態を示すものであり、各図面の実施形態を組み合わせまたは変形してバイノーラルレンダリングを行うことができる。例えば、各実施形態において、バイノーラルレンダラーは入力されたマルチオーディオ信号の各々に対して個別的にＰ−パートレンダリングを行うこともできるが、入力信号を２チャネルの左、右信号またはモノ信号にダウンミックスした後にダウンミックス信号に対するＰ−パートレンダリングを行うこともできる。

＜周波数ドメイン可変次数フィルタリング（ＶａｒｉａｂｌｅＯｒｄｅｒＦｉｌｔｅｒｉｎｇｉｎＦｒｅｑｕｅｎｃｙ−ｄｏｍａｉｎ、ＶＯＦＦ）＞

図８〜図１０は、本発明の実施形態によるバイノーラルレンダリングのためのＦＩＲフィルタ生成方法を示している。本発明の実施形態によれば、ＱＭＦドメインにおけるバイノーラルレンダリングのために、ＱＭＦドメインの複数のサブバンドフィルタに変換されたＦＩＲフィルタが用いられることができる。この時、Ｆ−パートレンダリングには、各サブバンド周波数に従属的に切断されたサブバンドフィルタが用いられることができる。すなわち、バイノーラルレンダラーの高速コンボリューション部は、サブバンドに応じて互いに異なる長さを有する切断されたサブバンドフィルタを用いることによって、ＱＭＦドメインにおける可変次数フィルタリングを行うことができる。以下で説明する図８〜図１０のフィルタ生成の実施形態は図２のＢＲＩＲパラメータ化部３００によって行われることができる。

図８は、バイノーラルレンダリングに用いられるＱＭＦドメインフィルタの各ＱＭＦバンドに応じた長さの一実施形態を示している。図８の実施形態において、ＦＩＲフィルタはＫ個のＱＭＦサブバンドフィルタに変換され、ＦｋはＱＭＦサブバンドｋの切断されたサブバンドフィルタを示す。ＱＭＦドメインは全６４個のサブバンドを用いることができるが、本発明はこれに限定されるものではない。また、Ｎは原本サブバンドフィルタの長さ（タップ数）を示し、切断されたサブバンドフィルタの長さは各々Ｎ１、Ｎ２、Ｎ３で示す。この時、長さＮ、Ｎ１、Ｎ２およびＮ３はダウンサンプルされたＱＭＦドメインにおけるタップ数を示す。

本発明の実施形態によれば、各サブバンドに応じて互いに異なる長さ（Ｎ１、Ｎ２、Ｎ３）を有する切断されたサブバンドフィルタがＦ−パートレンダリングに用いられることができる。この時、切断されたサブバンドフィルタは原本サブバンドフィルタにおいて切断された前部（ｆｒｏｎｔ）のフィルタであり、フロントサブバンドフィルタと称することができる。また、原本サブバンドフィルタの切断以後の後部（ｒｅａｒ）はリヤサブバンドフィルタと称することができ、Ｐ−パートレンダリングに用いられることができる。

ＢＲＩＲフィルタを用いたレンダリングの場合、各サブバンド別のフィルタ次数（すなわち、フィルタ長さ）は、原本ＢＲＩＲフィルタから抽出されたパラメータ、例えば、各サブバンドフィルタ別の残響時間（ＲｅｖｅｒｂｅｒａｔｉｏｎＴｉｍｅ、ＲＴ）情報、ＥＤＣ（ＥｎｅｒｇｙＤｅｃａｙＣｕｒｖｅ）値、エネルギー減衰時間情報などに基づいて決定されることができる。各周波数別に空気中での減衰、壁および天井の材質に応じた吸音程度が異なる音響的な特性により、残響時間は周波数に応じて互いに異なりうる。一般的には、低周波数の信号であるほど残響時間が長いという特性を有する。残響時間が長ければ、ＦＩＲフィルタの後部に多くの情報が残っていることを意味するため、該フィルタを長く切断して用いることが残響情報を正しく伝達するのに好ましい。よって、本発明の各切断されたサブバンドフィルタの長さは、該サブバンドフィルタから抽出された特性情報（例えば、残響時間情報）に少なくとも部分的に基づいて決定される。

切断されたサブバンドフィルタの長さは様々な実施形態に応じて決定されることができる。先ず、一実施形態によれば、各サブバンドは複数のグループに分類され、分類されたグループに応じて各切断されたサブバンドフィルタの長さが決定されることができる。図８の例示によれば、各サブバンドは３つの区域（Ｚｏｎｅ１、Ｚｏｎｅ２、Ｚｏｎｅ３）に分類されることができ、低周波数に該当するＺｏｎｅ１の切断されたサブバンドフィルタは高周波数に該当するＺｏｎｅ２およびＺｏｎｅ３の切断されたサブバンドフィルタより長いフィルタ次数（すなわち、フィルタ長さ）を有することができる。また、高周波数の区域に行くほど、該当区域の切断されたサブバンドフィルタのフィルタ次数は次第に減る。

本発明の他の実施形態によれば、各切断されたサブバンドフィルタの長さは、原本サブバンドフィルタの特性情報に応じて各サブバンド別に独立におよび可変的に決定されることができる。各切断されたサブバンドフィルタの長さは該サブバンドで決定された切断長さに基づいて決定され、隣り合うまたは他サブバンドの切断されたサブバンドフィルタの長さに影響を受けない。例えば、Ｚｏｎｅ２の一部あるいは全部の切断されたサブバンドフィルタの長さがＺｏｎｅ１の少なくとも１つの切断されたサブバンドフィルタの長さより長くてもよい。

本発明のまた他の実施形態によれば、複数のグループに分類されたサブバンドのうち一部に対してのみ周波数ドメイン可変次数フィルタリングが行われることができる。すなわち、分類された少なくとも２個のグループのうち一部のグループに属したサブバンドに対してのみ互いに異なる長さを有する切断されたサブバンドフィルタが生成されることができる。一実施形態によれば、切断されたサブバンドフィルタが生成されるグループは、既に設定された定数または既に設定された周波数バンドに基づいて低周波数バンドに分類されたサブバンドグループ（例えば、Ｚｏｎｅ１）であってもよい。例えば、原本ＢＲＩＲフィルタのサンプリング周波数が４８ｋＨｚである時、原本ＢＲＩＲフィルタは全６４個のＱＭＦサブバンドフィルタに変換されることができる（Ｋ＝６４）。この時、全体０〜２４ｋＨｚバンドの半分である０〜１２ｋＨｚバンドに該当するサブバンド、すなわち、低周波数バンド順に０から３１のインデックスを有する全３２個のサブバンドに対してのみ切断されたサブバンドフィルタが生成されることができる。この時、本発明の実施形態によれば、インデックス０であるサブバンドの切断されたサブバンドフィルタの長さは、インデックス３１であるサブバンドの切断されたサブバンドフィルタの長さより長いことを特徴とする。

切断されたフィルタの長さは、オーディオ信号処理装置が取得した追加的な情報、例えば、デコーダの複雑度（ｃｏｍｐｌｅｘｉｔｙ）、複雑度レベル（プロファイル）、または要求されるクォリティー情報に基づいて決定されることができる。複雑度はオーディオ信号処理装置のハードウェアリソース（ｒｅｓｏｕｒｃｅ）に応じて決定されるか、またはユーザーが直接入力した値に応じて決定されることができる。クォリティーはユーザーの要求に応じて決定されるか、またはビットストリームを通じて送信された値またはビットストリームに含まれた他の情報を参照して決定されることができる。また、クォリティーは送信されるオーディオ信号の品質を推定した値に応じて決定されることもでき、例えば、ビットレートが高いほど、より高いクォリティーとみなすことができる。この時、各切断されたサブバンドフィルタの長さは複雑度およびクォリティーに応じて比例的に増加してもよく、各バンド別に互いに異なる比率で変化してもよい。また、各切断されたサブバンドフィルタの長さは、後述するＦＦＴなどの高速プロセッシングによる追加的な利得を得るために、それに対応する大きさ単位、例えば、２の累乗の倍数に決定されることができる。その反面、切断されたサブバンドフィルタの決定された長さが実際のサブバンドフィルタの全長より長い場合、切断されたサブバンドフィルタの長さは実際のサブバンドフィルタの長さに調整されることができる。

ＢＲＩＲパラメータ化部は、前述した実施形態に応じて決定された各切断されたサブバンドフィルタに対応する切断されたサブバンドフィルタ係数（Ｆ−パート係数）を生成し、それを高速コンボリューション部に伝達する。高速コンボリューション部は、切断されたサブバンドフィルタ係数を用いて、マルチオーディオ信号の各サブバンド信号に対する周波数ドメイン可変次数フィルタリングを行う。すなわち、互いに異なる周波数バンドである第１サブバンドと第２サブバンドに対し、高速コンボリューション部は、第１サブバンド信号に第１の切断されたサブバンドフィルタ係数を適用して第１サブバンドバイノーラル信号を生成し、第２サブバンド信号に第２の切断されたサブバンドフィルタ係数を適用して第２サブバンドバイノーラル信号を生成する。この時、第１の切断されたサブバンドフィルタ係数と第２の切断されたサブバンドフィルタ係数は互いに異なる長さを有してもよく、同一な時間領域を有する原型フィルタ（プロトタイプフィルタ）から得られてもよい。

図９は、バイノーラルレンダリングに用いられるＱＭＦドメインフィルタの各ＱＭＦバンド別の長さの他の実施形態を示している。図９の実施形態において、図８の実施形態と同一または相応する部分については重複的な説明は省略する。

図９の実施形態において、ＦｋはＱＭＦサブバンドｋのＦ−パートレンダリングに用いられる切断されたサブバンドフィルタ（フロントサブバンドフィルタ）を示し、ＰｋはＱＭＦサブバンドｋのＰ−パートレンダリングに用いられるリヤサブバンドフィルタを示す。Ｎは原本サブバンドフィルタの長さ（タップ数）を示し、ＮｋＦおよびＮｋＰは各々サブバンドｋのフロントサブバンドフィルタおよびリヤサブバンドフィルタの長さを示す。前述したように、ＮｋＦおよびＮｋＰはダウンサンプルされたＱＭＦドメインにおけるタップ数を示す。

図９の実施形態によれば、フロントサブバンドフィルタだけでなくリヤサブバンドフィルタの長さも原本サブバンドフィルタから抽出されたパラメータに基づいて決定されることができる。すなわち、各サブバンドのフロントサブバンドフィルタおよびリヤサブバンドフィルタの長さは、該サブバンドフィルタから抽出された特性情報に少なくとも部分的に基づいて決定される。例えば、フロントサブバンドフィルタの長さは該サブバンドフィルタの第１残響時間情報に基づいて、リヤサブバンドフィルタの長さは第２残響時間情報に基づいて決定されることができる。すなわち、フロントサブバンドフィルタは原本サブバンドフィルタにおいて第１残響時間情報に基づいて切断された前部のフィルタであり、リヤサブバンドフィルタはフロントサブバンドフィルタ以後の区間として第１残響時間と第２残響時間との間の区間に対応する後部のフィルタである。一実施形態によれば、第１残響時間情報はＲＴ２０、第２残響時間情報はＲＴ６０であることができるが、本発明はこれに限定されるものではない。

第２残響時間以内には、初期反射音パートから後期残響パートに転換される部分が存在する。すなわち、決定性（ｄｅｔｅｒｍｉｎｉｓｔｉｃｃｈａｒａｃｔｅｒｉｓｔｉｃ）を有する区間から推計的特性（ｓｔｏｃｈａｓｔｉｃｃｈａｒａｃｔｅｒｉｓｔｉｃ）を有する区間に転換される地点が存在し、全体バンドのＢＲＩＲの観点でこの地点をミキシングタイムと呼ぶ。ミキシングタイム以前の区間の場合、各位置別に方向性を提供する情報が主に存在し、これはチャネル別に固有である。その反面、後期残響パートの場合、チャネル別に共通した特徴を有するため、複数のチャネルを一度に処理することが効率的である。よって、サブバンド別のミキシングタイムを推定して、ミキシングタイム以前に対してはＦ−パートレンダリングによって高速コンボリューションを行い、ミキシングタイム以後に対してはＰ−パートレンダリングによって各チャネル別の共通した特性が反映されたプロセッシングを行うことができる。

しかし、ミキシングタイムを推定することは知覚的（ｐｅｒｃｅｐｔｕａｌ）な観点で偏向（ｂｉａｓ）によるエラーが発生しうる。よって、正確なミキシングタイムを推定して該当境界を基準にＦ−パートとＰ−パートに分けて処理することよりは、Ｆ−パートの長さを最大限長くして高速コンボリューションを行うことがクォリティーの観点では優れる。よって、Ｆ−パートの長さ、すなわち、フロントサブバンドフィルタの長さは、複雑度−クォリティー制御に応じてミキシングタイムに該当する長さより長いかまたは短くなってもよい。

それに加え、各サブバンドフィルタの長さを減らすために、前述したように切断する方法の他にも、特定サブバンドの周波数応答が単調な（ｍｏｎｏｔｏｎｉｃ）場合、該サブバンドのフィルタを低い次数に減少させるモデリングが可能である。代表的な方法としては周波数サンプリングを用いたＦＩＲフィルタモデリングがあり、最小二乗の観点で最小化されるフィルタをデザインすることができる。

本発明の実施形態によれば、各サブバンド別のフロントサブバンドフィルタおよび／またはリヤサブバンドフィルタの長さは、該サブバンドの各チャネルに対して同一の値を有することができる。ＢＲＩＲには測定上のエラーが存在し、残響時間を推定するにも偏向などの誤差要素が存在する。よって、このような影響を減らすために、チャネル間またはサブバンド間の相互関係に基づいてフィルタの長さが決定されることができる。一実施形態によれば、ＢＲＩＲパラメータ化部は、同一のサブバンドの各チャネルに対応するサブバンドフィルタから各々第１特性情報（例えば、第１残響時間情報）を抽出し、抽出された第１特性情報を組み合わせて該サブバンドに対する１つのフィルタ次数情報（または、第１切断地点情報）を得ることができる。該サブバンドの各チャネル別のフロントサブバンドフィルタは、前記得られたフィルタ次数情報（または、第１切断地点情報）に基づいて同一の長さを有するように決定されることができる。同様に、ＢＲＩＲパラメータ化部は、同一のサブバンドの各チャネルに対応するサブバンドフィルタから各々第２特性情報（例えば、第２残響時間情報）を抽出し、抽出された第２特性情報を組み合わせて該サブバンドの各チャネルに対応するリヤサブバンドフィルタに共通に適用される第２切断地点情報を得ることができる。ここで、フロントサブバンドフィルタは原本サブバンドフィルタにおいて第１切断地点情報に基づいて切断された前部のフィルタであり、リヤサブバンドフィルタはフロントサブバンドフィルタ以後の区間として第１切断地点と第２切断地点との間の区間に対応する後部のフィルタである。

一方、本発明の他の実施形態によれば、特定サブバンドグループのサブバンドに対してはＦ−パートプロセッシングのみ行われることができる。この時、該サブバンドに対して第１切断地点までのフィルタだけを用いてプロセッシングが行われれば、全体サブバンドフィルタを用いてプロセッシングが行われる時に比べて、処理されるフィルタのエネルギー差によってユーザが知覚できる水準の歪みが発生しうる。このような歪みを防止するために、該サブバンドフィルタにおいてプロセッシングに用いられない領域、すなわち、第１切断地点以後の領域に対するエネルギー補償が行われることができる。前記エネルギー補償は、Ｆ−パート係数（フロントサブバンドフィルタ係数）に該サブバンドフィルタの第１切断地点までのフィルタパワーを分け、所望の領域のエネルギー、例えば、該サブバンドフィルタの全体パワーを乗ずることによって実行可能である。よって、Ｆ−パート係数のエネルギーが全体サブバンドフィルタのエネルギーと同一になるように調整されることができる。また、ＢＲＩＲパラメータ化部からＰ−パート係数が送信されたにもかかわらず、バイノーラルレンダリングユニットでは複雑度−クォリティー制御に基づいてＰ−パートプロセッシング行わなくてもよい。この場合、バイノーラルレンダリングユニットは、Ｐ−パート係数を用いてＦ−パート係数に対する前記エネルギー補償を行うことができる。

前述した方法によるＦ−パートプロセッシングにおいて、各サブバンド別に異なる長さを有する切断されたサブバンドフィルタのフィルタ係数は、１つの時間領域フィルタ（すなわち、ｐｒｏｔｏ−ｔｙｐｅフィルタ）から得られる。すなわち、１つの時間領域フィルタを複数のＱＭＦサブバンドフィルタに変換し、各サブバンドに対応するフィルタの長さを可変させたものであるため、各切断されたサブバンドフィルタは１つの原型フィルタから得られたものである。

ＢＲＩＲパラメータ化部は、前述した実施形態に応じて決定された各フロントサブバンドフィルタに対応するフロントサブバンドフィルタ係数（Ｆ−パート係数）を生成し、それを高速コンボリューション部に伝達する。高速コンボリューション部は、受信されたフロントサブバンドフィルタ係数を用いて、マルチオーディオ信号の各サブバンド信号に対する周波数ドメイン可変次数フィルタリングを行う。すなわち、互いに異なる周波数バンドである第１サブバンドと第２サブバンドに対し、高速コンボリューション部は、第１サブバンド信号に第１フロントサブバンドフィルタ係数を適用して第１サブバンドバイノーラル信号を生成し、第２サブバンド信号に第２フロントサブバンドフィルタ係数を適用して第２サブバンドバイノーラル信号を生成する。この時、第１フロントサブバンドフィルタ係数と第２フロントサブバンドフィルタ係数は互いに異なる長さを有することができ、同一の時間領域を有する原型フィルタ（プロトタイプフィルタ）から得られる。また、ＢＲＩＲパラメータ化部は、前述した実施形態に応じて決定された各リヤサブバンドフィルタに対応するリヤサブバンドフィルタ係数（Ｐ−パート係数）を生成し、それを後期残響生成部に伝達することができる。後期残響生成部は、受信されたリヤサブバンドフィルタ係数を用いて、各サブバンド信号に対する残響処理を行うことができる。本発明の実施形態によれば、ＢＲＩＲパラメータ化部は、各チャネル別のリヤサブバンドフィルタ係数を組み合わせてダウンミックスサブバンドフィルタ係数（ダウンミックスＰ−パート係数）を生成し、それを後期残響生成部に伝達することができる。後述するように、後期残響生成部は、受信されたダウンミックスサブバンドフィルタ係数を用いて２チャネルの左、右サブバンド残響信号を生成することができる。

図１０は、バイノーラルレンダリングに用いられるＦＩＲフィルタ生成方法のまた他の実施形態を示している。図１０の実施形態において、図８および図９の実施形態と同一または相応する部分については重複的な説明は省略する。

図１０を参照すれば、ＱＭＦ変換された複数のサブバンドフィルタは複数のグループに分類され、分類された各グループ別に互いに異なるプロセッシングが適用されることができる。例えば、複数のサブバンドは、既に設定された周波数バンド（ＱＭＦバンドｉ）を基準にした低周波数の第１サブバンドグループ（Ｚｏｎｅ１）と、高周波数の第２サブバンドグループ（Ｚｏｎｅ２）に分類されることができる。この時、第１サブバンドグループの入力サブバンド信号に対してはＦ−パートレンダリングが、第２サブバンドグループの入力サブバンド信号に対しては後述するＱＴＤＬプロセッシングが行われることができる。

よって、ＢＲＩＲパラメータ化部は、第１サブバンドグループの各サブバンド別にフロントサブバンドフィルタ係数を生成し、それを高速コンボリューション部に伝達する。高速コンボリューション部は、受信されたフロントサブバンドフィルタ係数を用いて第１サブバンドグループのサブバンド信号に対するＦ−パートレンダリングを行う。実施形態により、第１サブバンドグループのサブバンド信号に対するＰ−パートレンダリングが後期残響生成部によってさらに行われることもできる。また、ＢＲＩＲパラメータ化部は、第２サブバンドグループの各サブバンドフィルタ係数から少なくとも１つのパラメータを取得し、それをＱＴＤＬプロセッシング部に伝達する。ＱＴＤＬプロセッシング部は、得られたパラメータを用いて、後述するように第２サブバンドグループの各サブバンド信号に対するタップ−ディレイラインフィルタリングを行う。本発明の実施形態によれば、第１サブバンドグループと第２サブバンドグループを区分する既に設定された周波数（ＱＭＦバンドｉ）は事前に定められた定数値に基づいて決定されてもよく、送信されたオーディオ入力信号のビット列特性に応じて決定されてもよい。例えば、ＳＢＲを用いるオーディオ信号の場合、第２サブバンドグループがＳＢＲバンドに対応するように設定されることができる。

本発明の他の実施形態によれば、複数のサブバンドは、既に設定された第１周波数バンド（ＱＭＦバンドｉ）および第２周波数バンド（ＱＭＦバンドｊ）に基づいて３個のサブバンドグループに分類されることもできる。すなわち、複数のサブバンドは、第１周波数バンドより小さいかまたは同一な低周波数区域である第１サブバンドグループ（Ｚｏｎｅ１）、第１周波数バンドより大きく第２周波数バンドより小さいかまたは同一な中間周波数区域である第２サブバンドグループ（Ｚｏｎｅ２）、および第２周波数バンドより大きい高周波数区域である第３サブバンドグループ（Ｚｏｎｅ３）に分類されることができる。例えば、全６４個のＱＭＦサブバンド（サブバンドインデックス０〜６３）が前記３個のサブバンドグループに分類される場合、第１サブバンドグループは０から３１のインデックスを有する全３２個のサブバンドを、第２サブバンドグループは３２から４７のインデックスを有する全１６個のサブバンドを、第３サブバンドグループは残りの４８から６３のインデックスを有するサブバンドを含むことができる。ここで、サブバンドインデックスはサブバンド周波数が低いほど低い値を有する。

本発明の実施形態によれば、第１サブバンドグループと第２サブバンドグループのサブバンド信号に対してのみバイノーラルレンダリングが行われることができる。すなわち、第１サブバンドグループのサブバンド信号に対しては前述したようにＦ−パートレンダリングおよびＰ−パートレンダリングが行われ、第２サブバンドグループのサブバンド信号に対してはＱＴＤＬプロセッシングが行われることができる。また、第３サブバンドグループのサブバンド信号に対してはバイノーラルレンダリングが行われなくてもよい。一方、バイノーラルレンダリングを行う最大周波数バンドの情報（Ｋｐｒｏｃ＝４８）およびコンボリューションを行う周波数バンドの情報（Ｋｃｏｎｖ＝３２）は予め決められた値であってもよく、またはＢＲＩＲパラメータ化部によって決定されてバイノーラルレンダリングユニットに伝達されてもよい。この時、第１周波数バンド（ＱＭＦバンドｉ）はインデックスＫｃｏｎｖ−１のサブバンドに設定され、第２周波数バンド（ＱＭＦバンドｊ）はインデックスＫｐｒｏｃ−１のサブバンドに設定される。一方、最大周波数バンドの情報（Ｋｐｒｏｃ）およびコンボリューションを行う周波数バンドの情報（Ｋｃｏｎｖ）の値は、原本ＢＲＩＲ入力のサンプリング周波数、入力オーディオ信号のサンプリング周波数などによって可変しうる。

＜後期残響レンダリング＞

次に、図１１を参照して本発明のＰ−パートレンダリングの様々な実施形態について説明する。すなわち、ＱＭＦドメインにおいてＰ−パートレンダリングを行う図２の後期残響生成部２４０の様々な実施形態が図１１を参照して説明される。図１１の実施形態において、マルチチャネル入力信号はＱＭＦドメインのサブバンド信号として受信されると仮定する。よって、図１１における後期残響生成部２４０の各構成のプロセッシングは各ＱＭＦサブバンド別に行われることができる。図１１の実施形態において、以前の図面の実施形態と重複する部分については具体的な説明は省略する。

前述した図８〜図１０の実施形態において、Ｐ−パートに対応するＰｋ（Ｐ１、Ｐ２、Ｐ３、…）は周波数可変切断に応じて除去された各サブバンドフィルタの後部分に該当し、通常、後期残響に対する情報を含んでいる。複雑度−クォリティー制御に応じてＰ−パートの長さは各サブバンドフィルタの切断された地点以後の全体フィルタとして定義されてもよく、該サブバンドフィルタの第２残響時間情報を参照してより小さい長さとして定義されてもよい。

Ｐ−パートレンダリングは各チャネル別に独立に行われてもよく、ダウンミックスされたチャネルに対して行われてもよい。また、Ｐ−パートレンダリングは既に設定されたサブバンドグループ別にまたは各サブバンド別に互いに異なるプロセッシングを通じて適用されてもよく、全体サブバンドに対して同一なプロセッシングとして適用されてもよい。この時、Ｐ−パートに適用可能なプロセッシングとしては、入力信号に対するエネルギー減少の補償、タップ−ディレイラインフィルタリング、ＩＩＲ（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを用いたプロセッシング、人工残響器（ａｒｔｉｆｉｃｉａｌｒｅｖｅｒｂｅｒａｔｏｒ）を用いたプロセッシング、ＦＩＩＣ（Ｆｒｅｑｕｅｎｃｙ−ｉｎｄｅｐｅｎｄｅｎｔＩｎｔｅｒａｕｒａｌＣｏｈｅｒｅｎｃｅ）補償、ＦＤＩＣ（Ｆｒｅｑｕｅｎｃｙ−ｄｅｐｅｎｄｅｎｔＩｎｔｅｒａｕｒａｌＣｏｈｅｒｅｎｃｅ）補償などが含まれることができる。

一方、Ｐ−パートに対するパラメトリック（ｐａｒａｍｅｔｒｉｃ）プロセッシングのためには、大きく２つの特徴、すなわち、ＥＤＲ（ＥｎｅｒｇｙＤｅｃａｙＲｅｌｉｅｆ）とＦＤＩＣ（Ｆｒｅｑｕｅｎｃｙ−ｄｅｐｅｎｄｅｎｔＩｎｔｅｒａｕｒａｌＣｏｈｅｒｅｎｃｅ）の特徴を保存することが重要である。先ず、Ｐ−パートをエネルギー観点で観察すれば、各チャネル別にＥＤＲが同一または類似することが分かる。各チャネルが共通したＥＤＲを有しているため、全てのチャネルを１つまたは２つのチャネルにダウンミックスした後、ダウンミックスされたチャネルに対するＰ−パートレンダリングを行うことはエネルギー観点で妥当である。この時、Ｍ個のチャネルに対してＭ回のコンボリューションを実行しなければならないＰ−パートレンダリングの演算を、Ｍ−ｔｏ−０ダウンミックスと１回（または、２回）のコンボリューションに減らすことによって相当な演算量の利得を提供することができる。このようにダウンミックス信号にエネルギー減衰マッチングおよびＦＤＩＣ補償を実行すれば、マルチチャネル入力信号に対する後期残響をより効率的に実現することができる。マルチチャネル入力信号をダウンミックスする方法としては、各チャネルが同一のゲイン値を有するように全てのチャネルを足す方法が使用できる。本発明の他の実施形態によれば、マルチチャネル入力信号の左側チャネルはステレオ左チャネルに、右側チャネルはステレオ右チャネルに割り当てて足されることができる。この時、前方および後方（０度、１８０度）に位置したチャネルはステレオ左チャネルと右チャネルに同一なパワー（例えば、１／ｓｑｒｔ（２）のゲイン値）で正規化（ｎｏｒｍａｌｉｚｅ）して分配されることができる。

図１１は、本発明の一実施形態による後期残響生成部２４０を示している。図１１の実施形態によれば、後期残響生成部２４０は、ダウンミックス部２４１、エネルギー減衰マッチング部２４２、デコリレータ２４３およびＩＣマッチング部２４４を含むことができる。また、後期残響生成部２４０のプロセッシングのために、ＢＲＩＲパラメータ化部のＰ−パートパラメータ化部３６０は、ダウンミックスサブバンドフィルタ係数およびＩＣ値を生成してバイノーラルレンダリングユニットに伝達する。

先ず、ダウンミックス部２４１は、マルチチャネル入力信号Ｘ０、Ｘ１、…、Ｘ＿Ｍ−１を各サブバンド別にダウンミックスしてモノダウンミックス信号（すなわち、モノサブバンド信号）Ｘ＿ＤＭＸを生成する。エネルギー減衰マッチング部２４２は、生成されたモノダウンミックス信号に対するエネルギー減衰を反映する。この時、エネルギー減衰を反映するために、各サブバンドに対するダウンミックスサブバンドフィルタ係数が用いられることができる。ダウンミックスサブバンドフィルタ係数はＰ−パートパラメータ化部３６０から得られ、該サブバンドの各チャネル別のリヤサブバンドフィルタ係数の組み合わせによって生成される。例えば、ダウンミックスサブバンドフィルタ係数は、該サブバンドに対して各チャネル別のリヤサブバンドフィルタ係数の二乗振幅応答の平均にルートを取って得られる。よって、ダウンミックスサブバンドフィルタ係数は該サブバンド信号に対する後期残響パートのエネルギー減少特性を反映する。ダウンミックスサブバンドフィルタ係数は実施形態によってモノまたはステレオにダウンミックスされたサブバンドフィルタ係数を含むことができ、Ｐ−パートパラメータ化部３６０から直接受信されるか、またはメモリ２２５に既に格納された値から得ることができる。

次に、デコリレータ２４３は、エネルギー減衰が反映されたモノダウンミックス信号の非相関信号Ｄ＿ＤＭＸを生成する。デコリレータ２４３は両耳間のコヒーレンス（ｃｏｈｅｒｅｎｃｅ）を調整するための一種の前処理器であって、位相ランダマイザ（ｐｈａｓｅｒａｎｄｏｍｉｚｅｒ）が用いられてもよく、演算量の効率のために９０度単位で入力信号の位相を変えてもよい。

（複号同順）

＜高周波数バンドのＱＴＤＬプロセッシング＞

次に、図１２および図１３を参照して本発明のＱＴＤＬプロセッシングの様々な実施形態について説明する。すなわち、ＱＭＦドメインにおいてＱＴＤＬプロセッシングを行う図２のＱＴＤＬプロセッシング部２５０の様々な実施形態が図１２および図１３を参照して説明される。図１２および図１３の実施形態において、マルチチャネル入力信号はＱＭＦドメインのサブバンド信号として受信されると仮定する。よって、図１２および図１３の実施形態において、タップ−ディレイラインフィルタおよびワン−タップ−ディレイラインフィルタは各ＱＭＦサブバンド別にプロセッシングを行うことができる。また、ＱＴＤＬプロセッシングは、前述したように既に設定された定数または既に設定された周波数バンドに基づいて分類された高周波数バンドの入力信号に対してのみ行われることができる。仮に、入力オーディオ信号にＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）が適用された場合、前記高周波数バンドはＳＢＲバンドに対応する。図１２および図１３の実施形態において、以前の図面の実施形態と重複する部分については具体的な説明は省略する。

高周波数帯域の効率的な符号化のために用いられるＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）は、低ビット率の符号化時に高周波数帯域の信号を捨てることによって狭くなったバンド幅を再び拡張して、原信号程度のバンド幅を確保するための道具である。この時、高周波数帯域は符号化されて送信される低周波数帯域の情報とエンコーダによって送信した高周波数帯域信号の付加情報を活用して生成される。しかし、ＳＢＲを用いて生成された高周波数成分は不正確な高調波（ｈａｒｍｏｎｉｃ）の生成によって歪みが発生しうる。また、ＳＢＲバンドは高周波数帯域であり、前述したように該周波数帯域の残響時間は非常に短い。すなわち、ＳＢＲバンドのＢＲＩＲサブバンドフィルタは有効情報が少なく、速い減衰率を有する。よって、ＳＢＲ帯域に準ずる高周波数帯域に対するＢＲＩＲレンダリングは、コンボリューションを行うことよりは有効な少数のタップを用いてレンダリングを行うことが音質のクォリティーに対比して演算量の側面で非常に効果的である。

図１２は、本発明の一実施形態によるＱＴＤＬプロセッシング部２５０Ａを示している。図１２の実施形態によれば、ＱＴＤＬプロセッシング部２５０Ａは、タップ−ディレイラインフィルタを用いて、マルチチャネル入力信号Ｘ０、Ｘ１、…、Ｘ＿Ｍ−１に対するサブバンド別のフィルタリングを行う。タップ−ディレイラインフィルタは、各チャネル信号に対して既に設定された少数のタップだけコンボリューションを行う。この時に用いられる少数のタップは、該サブバンド信号に対応するＢＲＩＲサブバンドフィルタ係数から直接抽出されたパラメータに基づいて決定されることができる。前記パラメータは、タップ−ディレイラインフィルタに用いられる各タップに対するディレイ（ｄｅｌａｙ）情報およびそれに対応するゲイン（ｇａｉｎ）情報を含む。

タップ−ディレイラインフィルタに用いられるタップ数は、複雑度−クォリティー制御に応じて決定されることができる。ＱＴＤＬプロセッシング部２５０Ａは、既に決められたタップ数に基づいて、各チャネルおよびサブバンド別に該タップ数に対応するパラメータ（ゲイン情報、ディレイ情報）セットをＢＲＩＲパラメータ化部から受信する。この時、受信されるパラメータセットは該サブバンド信号に対応するＢＲＩＲサブバンドフィルタ係数から抽出され、様々な実施形態に応じて決定されることができる。例えば、該ＢＲＩＲサブバンドフィルタ係数の複数のピークのうち絶対値の大きさ順、実数値の大きさ順、または虚数値の大きさ順に前記既に決められたタップ数だけ抽出されたピークの各々に対するパラメータのセットが受信されることができる。この時、各パラメータのディレイ情報は該ピークの位置情報を示し、ＱＭＦドメインにおいてサンプル単位の整数値を有する。また、ゲイン情報は、該ＢＲＩＲサブバンドフィルタ係数の全体パワー、該ディレイ情報に対応するピークの大きさに基づいて決定される。この時、ゲイン情報は、サブバンドフィルタ係数における該ピーク値そのものが用いられてもよいが、全体サブバンドフィルタ係数に対するエネルギー補償が行われた後の該ピークの加重値が用いられてもよい。前記ゲイン情報は、該ピークに対する実数加重値および虚数加重値を共に用いて得られ、よって複素数値を有する。

タップ−ディレイラインフィルタによってフィルタリングされた複数のチャネル信号は、各サブバンド別に２チャネルの左、右出力信号Ｙ＿Ｌ、Ｙ＿Ｒで合算される。一方、ＱＴＤＬプロセッシング部２５０Ａの各タップ−ディレイラインフィルタで用いられるパラメータはバイノーラルレンダリングの初期化過程でメモリに格納されることができ、パラメータの抽出のための追加的な演算なしでＱＴＤＬプロセッシングが行われることができる。

図１３は、本発明の他の実施形態によるＱＴＤＬプロセッシング部２５０Ｂを示している。図１３の実施形態によれば、ＱＴＤＬプロセッシング部２５０Ｂは、ワン−タップ−ディレイラインフィルタを用いて、マルチチャネル入力信号Ｘ０、Ｘ１、…、Ｘ＿Ｍ−１に対するサブバンド別のフィルタリングを行う。ワン−タップ−ディレイラインフィルタは、各チャネル信号に対して１個のタップにおいてのみコンボリューションを行うものとして理解することができる。この時に用いられるタップは、該サブバンド信号に対応するＢＲＩＲサブバンドフィルタ係数から直接抽出されたパラメータに基づいて決定されることができる。前記パラメータは、前述したようにＢＲＩＲサブバンドフィルタ係数から抽出されたディレイ情報およびそれに対応するゲイン情報を含む。

図１３において、Ｌ＿０、Ｌ＿１、…Ｌ＿Ｍ−１は各々Ｍ個のチャネルから左耳へのＢＲＩＲに対するディレイを示し、Ｒ＿０、Ｒ＿１、…、Ｒ＿Ｍ−１は各々Ｍ個のチャネルから右耳へのＢＲＩＲに対するディレイを示す。この時、ディレイ情報は、該ＢＲＩＲサブバンドフィルタ係数のうちの絶対値の大きさ順、実数値の大きさ順、または虚数値の大きさ順に最大ピークに対する位置情報を示す。また、図１３において、Ｇ＿Ｌ＿０、Ｇ＿Ｌ＿１、…、Ｇ＿Ｌ＿Ｍ−１は左チャネルの各ディレイ情報に対応するゲインを示し、Ｇ＿Ｒ＿０、Ｇ＿Ｒ＿１、…、Ｇ＿Ｒ＿Ｍ−１は各々右チャネルの各ディレイ情報に対応するゲインを示す。前述したように、各ゲイン情報は、該ＢＲＩＲサブバンドフィルタ係数の全体パワー、該ディレイ情報に対応するピークの大きさなどに基づいて決定される。この時、ゲイン情報はサブバンドフィルタ係数における該ピーク値そのものが用いられてもよいが、全体サブバンドフィルタ係数に対するエネルギー補償が行われた後の該ピークの加重値が用いられてもよい。前記ゲイン情報は該ピークに対する実数加重値および虚数加重値を共に用いて得られ、よって複素数値を有する。

このように、ワン−タップ−ディレイラインフィルタによってフィルタリングされた複数のチャネル信号は、各サブバンド別に２チャネルの左、右出力信号Ｙ＿Ｌ、Ｙ＿Ｒで合算される。また、ＱＴＤＬプロセッシング部２５０Ｂの各ワン−タップ−ディレイラインフィルタで用いられるパラメータはバイノーラルレンダリングの初期化過程でメモリに格納されることができ、パラメータの抽出のための追加的な演算なしでＱＴＤＬプロセッシングが行われることができる。

＜ＢＲＩＲパラメータ化の詳細＞

図１４は、本発明の実施形態によるＢＲＩＲパラメータ化部の各構成を示すブロック図である。図示すように、ＢＲＩＲパラメータ化部３００は、Ｆ−パートパラメータ化部３２０、Ｐ−パートパラメータ化部３６０およびＱＴＤＬパラメータ化部３８０を含むことができる。ＢＲＩＲパラメータ化部３００は時間ドメインのＢＲＩＲフィルタセットを入力として受信し、ＢＲＩＲパラメータ化部３００の各サブユニットは受信されたＢＲＩＲフィルタセットを用いてバイノーラルレンダリングのための各種パラメータを生成する。実施形態により、ＢＲＩＲパラメータ化部３００は制御パラメータの入力をさらに受けることができ、入力された制御パラメータに基づいてパラメータを生成することができる。

先ず、Ｆ−パートパラメータ化部３２０は、周波数ドメイン可変次数フィルタリング（ＶＯＦＦ）に必要な切断されたサブバンドフィルタ係数とそれに応じた補助パラメータを生成する。例えば、Ｆ−パートパラメータ化部３２０は、切断されたサブバンドフィルタ係数を生成するための周波数バンド別の残響時間情報、フィルタ次数情報などを算出し、切断されたサブバンドフィルタ係数に対するブロック単位の高速フーリエ変換を実行するためのブロックの大きさを決定する。Ｆ−パートパラメータ化部３２０で生成された一部パラメータはＰ−パートパラメータ化部３６０およびＱＴＤＬパラメータ化部３８０に伝達されることができる。この時、伝達されるパラメータはＦ−パートパラメータ化部３２０の最終出力値に限定されず、Ｆ−パートパラメータ化部３２０のプロセッシングに応じて中間に生成されたパラメータ、例えば、時間ドメインの切断されたＢＲＩＲフィルタ係数などを含むことができる。

Ｐ−パートパラメータ化部３６０はＰ−パートレンダリング、すなわち、後期残響を生成するために必要なパラメータを生成する。例えば、Ｐ−パートパラメータ化部３６０はダウンミックスサブバンドフィルタ係数、ＩＣ値などを生成することができる。また、ＱＴＤＬパラメータ化部３８０はＱＴＤＬプロセッシングのためのパラメータを生成する。より具体的には、ＱＴＤＬパラメータ化部３８０は、Ｆ−パートパラメータ化部３２０からサブバンドフィルタ係数の入力を受け、それを用いて各サブバンドにおけるディレイ情報およびゲイン情報を生成する。この時、ＱＴＤＬパラメータ化部３８０はバイノーラルレンダリングを行う最大周波数バンドの情報（Ｋｐｒｏｃ）およびコンボリューションを行う周波数バンドの情報（Ｋｃｏｎｖ）を制御パラメータとして受信することができ、ＫｐｒｏｃとＫｃｏｎｖを境界とするサブバンドグループの各周波数バンドに対してディレイ情報およびゲイン情報を生成することができる。一実施形態によれば、ＱＴＤＬパラメータ化部３８０はＦ−パートパラメータ化部３２０に含まれた構成として提供されてもよい。

Ｆ−パートパラメータ化部３２０、Ｐ−パートパラメータ化部３６０およびＱＴＤＬパラメータ化部３８０によって各々生成されたパラメータはバイノーラルレンダリングユニット（図示せず）に送信される。一実施形態によれば、Ｐ−パートパラメータ化部３６０とＱＴＤＬパラメータ化部３８０は、バイノーラルレンダリングユニットにおいてＰ−パートレンダリング、ＱＴＤＬプロセッシングが各々実行されるか否かに応じてパラメータの生成有無を決定することができる。仮にバイノーラルレンダリングユニットにおいてＰ−パートレンダリングおよびＱＴＤＬレンダリングのうち少なくとも１つが行われない場合、それに対応するＰ−パートパラメータ化部３６０、ＱＴＤＬパラメータ化部３８０はパラメータを生成しなかったり、生成されたパラメータをバイノーラルレンダリングユニットに送信しなくてもよい。

図１５は、本発明のＦ−パートパラメータ化部の各構成を示すブロック図である。図示したように、Ｆ−パートパラメータ化部３２０は、伝播時間算出部３２２、ＱＭＦ変換部３２４およびＦ−パートパラメータ生成部３３０を含むことができる。Ｆ−パートパラメータ化部３２０は、受信された時間ドメインＢＲＩＲフィルタ係数を用いて、Ｆ−パートレンダリングのための切断されたサブバンドフィルタ係数を生成する過程を行う。

先ず、伝播時間算出部３２２は、時間ドメインＢＲＩＲフィルタ係数の伝播時間情報を算出し、算出された伝播時間情報に基づいて時間ドメインＢＲＩＲフィルタ係数を切断する。ここで、伝播時間情報はＢＲＩＲフィルタ係数の初期サンプルから直接音までの時間を示す。伝播時間算出部３２２は、時間ドメインＢＲＩＲフィルタ係数から前記算出された伝播時間に該当する部分を切断してそれを除去することができる。

ＢＲＩＲフィルタ係数の伝播時間を推定するために様々な方法が使用できる。一実施形態によれば、ＢＲＩＲフィルタ係数の最大ピーク値に比例する閾値より大きいエネルギー値が現れる最初の地点情報に基づいて伝播時間を推定することができる。この時、マルチチャネル入力の各チャネルから聴者までの距離は全て異なるため、チャネル別に伝播時間が各々異なりうる。しかし、バイノーラルレンダリングの実行時、伝播時間が切断されたＢＲＩＲフィルタ係数を用いてコンボリューションを実行し、最終バイノーラルレンダリングされた信号をディレイで補償するためには、全チャネルの伝播時間切断長さが同一でなければならない。また、各チャネルに同一の伝播時間情報を適用して切断を行えば、個別チャネルにおける誤差発生確率を減らすことができる。

ここで、Ｎ_BRIRはＢＲＩＲフィルタの全体個数、Ｎ_hopは既に設定されたホップサイズ、Ｌ_frmはフレームサイズを示す。すなわち、フレームエネルギーＥ（ｋ）は、同一時間領域に対する各チャネル別のフレームエネルギーの平均値として算出されることができる。

前記定義されたフレームエネルギーＥ（ｋ）を用いて、伝播時間（ｐｔ）は次の数式によって算出することができる。

すなわち、伝播時間算出部３２２は、既に設定されたホップ単位でシフト（ｓｈｉｆｔｉｎｇ）してフレームエネルギーを測定し、フレームエネルギーが既に設定された閾値より大きい最初のフレームを識別する。この時、伝播時間は識別された最初のフレームの中間地点に決定されることができる。一方、数式５では閾値が最大フレームエネルギーより６０ｄＢ低い値に設定されるものとして例示されているが、本発明はこれに限定されず、閾値は最大フレームエネルギーに比例する値または最大フレームエネルギーと既に設定された差を有する値に設定されることができる。

一方、ホップサイズ（Ｎ_hop）およびフレームサイズ（Ｌ_frm）は、入力ＢＲＩＲフィルタ係数がＨＲＩＲ（ＨｅａｄＲｅｌａｔｅｄＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数であるか否かに基づいて可変しうる。この時、入力ＢＲＩＲフィルタ係数がＨＲＩＲフィルタ係数であるか否かを示す情報（ｆｌａｇ＿ＨＲＩＲ）は外部から受信されてもよく、時間ドメインＢＲＩＲフィルタ係数の長さを用いて推定されてもよい。一般的に、初期反射音パートと後期残響パートの境界は８０ｍｓであると知られている。よって、時間ドメインＢＲＩＲフィルタ係数の長さが８０ｍｓ以下である場合は、該ＢＲＩＲフィルタ係数はＨＲＩＲフィルタ係数であると判別され（ｆｌａｇ＿ＨＲＩＲ＝１）、８０ｍｓを超過する場合は、該ＢＲＩＲフィルタ係数はＨＲＩＲフィルタ係数ではないと判別される（ｆｌａｇ＿ＨＲＩＲ＝０）。仮に入力ＢＲＩＲフィルタ係数がＨＲＩＲフィルタ係数であると判別される場合（ｆｌａｇ＿ＨＲＩＲ＝１）のホップサイズ（Ｎ_hop）およびフレームサイズ（Ｌ_frm）は、該ＢＲＩＲフィルタ係数がＨＲＩＲフィルタ係数ではないと判別される場合（ｆｌａｇ＿ＨＲＩＲ＝０）に比べて小さい値に設定されることができる。例えば、ｆｌａｇ＿ＨＲＩＲ＝０の場合、ホップサイズ（Ｎ_hop）およびフレームサイズ（Ｌ_frm）は各々サンプル単位として８および３２に設定され、ｆｌａｇ＿ＨＲＩＲ＝１の場合、ホップサイズ（Ｎ_hop）およびフレームサイズ（Ｌ_frm）は各々サンプル単位として１および８に設定されることができる。

本発明の実施形態によれば、伝播時間算出部３２２は、算出された伝播時間情報に基づいて時間ドメインＢＲＩＲフィルタ係数を切断し、切断されたＢＲＩＲフィルタ係数をＱＭＦ変換部３２４に伝達することができる。ここで、切断されたＢＲＩＲフィルタ係数は、原本ＢＲＩＲフィルタ係数から前記伝播時間に該当する部分を切断および除去した後に残存するフィルタ係数を示す。伝播時間算出部３２２は、入力チャネル別、出力左／右チャネル別に時間ドメインＢＲＩＲフィルタ係数を切断してＱＭＦ変換部３２４に伝達する。

ＱＭＦ変換部３２４は、入力されたＢＲＩＲフィルタ係数の時間ドメイン−ＱＭＦドメイン間の変換を行う。すなわち、ＱＭＦ変換部３２４は、時間ドメインの切断されたＢＲＩＲフィルタ係数を受信し、それを複数の周波数バンドに各々対応する複数のサブバンドフィルタ係数に変換する。変換されたサブバンドフィルタ係数はＦ−パートパラメータ生成部３３０に伝達され、Ｆ−パートパラメータ生成部３３０は受信されたサブバンドフィルタ係数を用いて切断されたサブバンドフィルタ係数を生成する。仮にＦ−パートパラメータ化部３２０の入力として時間ドメインＢＲＩＲフィルタ係数でないＱＭＦドメインＢＲＩＲフィルタ係数が受信される場合、入力されたＱＭＦドメインＢＲＩＲフィルタ係数はＱＭＦ変換部３２４をバイパス（ｂｙｐａｓｓ）することができる。また、他の実施形態によれば、入力フィルタ係数がＱＭＦドメインＢＲＩＲフィルタ係数である場合、ＱＭＦ変換部３２４はＦ−パートパラメータ化部３２０において省略されてもよい。

図１６は、図１５のＦ−パートパラメータ生成部の細部構成を示すブロック図である。図示したように、Ｆ−パートパラメータ生成部３３０は、残響時間算出部３３２、フィルタ次数決定部３３４およびＶＯＦＦフィルタ係数生成部３３６を含むことができる。Ｆ−パートパラメータ生成部３３０は、図１５のＱＭＦ変換部３２４からＱＭＦドメインのサブバンドフィルタ係数を受信することができる。また、バイノーラルレンダリングを行う最大周波数バンド情報（Ｋｐｒｏｃ）、コンボリューションを行う周波数バンド情報（Ｋｃｏｎｖ）、既に設定された最大ＦＦＴ大きさ情報などの制御パラメータがＦ−パートパラメータ生成部３３０に入力されることができる。

先ず、残響時間算出部３３２は、受信されたサブバンドフィルタ係数を用いて残響時間情報を得る。得られた残響時間情報はフィルタ次数決定部３３４に伝達され、該サブバンドのフィルタ次数を決定するのに用いられる。一方、残響時間情報は測定環境に応じてバイアス（ｂｉａｓ）や偏差が存在しうるため、他チャネルとの相互関係を用いて統一された値を利用することができる。一実施形態によれば、残響時間算出部３３２は、各サブバンドの平均残響時間情報を生成し、それをフィルタ次数決定部３３４に伝達する。入力チャネルインデックスｍ、出力左／右チャネルインデックスｉ、サブバンドインデックスｋに対するサブバンドフィルタ係数の残響時間情報をＲＴ（ｋ，ｍ，ｉ）とする時、サブバンドｋの平均残響時間情報ＲＴ^kは次の数式によって算出することができる。

ここで、Ｎ_BRIRはＢＲＩＲフィルタの全体個数である。

すなわち、残響時間算出部３３２は、マルチチャネル入力に対応する各サブバンドフィルタ係数から残響時間情報ＲＴ（ｋ，ｍ，ｉ）を抽出し、同一サブバンドに対して抽出されたチャネル別の残響時間情報ＲＴ（ｋ，ｍ，ｉ）の平均値（すなわち、平均残響時間情報ＲＴ^k）を得る。得られた平均残響時間情報ＲＴ^kはフィルタ次数決定部３３４に伝達され、フィルタ次数決定部３３４はそれを用いて該サブバンドに適用される１つのフィルタ次数を決定することができる。この時、得られる平均残響時間情報はＲＴ２０を含むことができ、実施形態により、他の残響時間情報、例えばＲＴ３０、ＲＴ６０などが得られることもできる。一方、本発明の他の実施形態によれば、残響時間算出部３３２は、同一サブバンドに対して抽出されたチャネル別の残響時間情報の最大値および／または最小値を該サブバンドの代表残響時間情報としてフィルタ次数決定部３３４に伝達することができる。

次に、フィルタ次数決定部３３４は、得られた残響時間情報に基づいて該サブバンドのフィルタ次数を決定する。前述したように、フィルタ次数決定部３３４が得る残響時間情報は該サブバンドの平均残響時間情報であってもよく、実施形態によってはチャネル別の残響時間情報の最大値および／または最小値などの代表残響時間情報であってもよい。フィルタ次数は、該サブバンドのバイノーラルレンダリングのための切断されたサブバンドフィルタ係数の長さを決定するのに用いられる。

サブバンドｋにおける平均残響時間情報をＲＴ^kとする時、該サブバンドのフィルタ次数情報Ｎ_Filter［ｋ］は次の数式によって得ることができる。

すなわち、フィルタ次数情報は、該サブバンドの平均残響時間情報のログスケールの整数単位の近似値（ａｐｐｒｏｘｉｍａｔｅｄｉｎｔｅｇｅｒｖａｌｕｅ）を指数とする２の累乗値に決定されることができる。言い換えれば、フィルタ次数情報は、該サブバンドの平均残響時間情報をログスケールで四捨五入した値、切り上げした値、または切り下げした値を指数とする２の累乗値に決定されることができる。仮に、該サブバンドフィルタ係数の原本長さ、すなわち、最後のタイムスロット（ｎ_end）までの長さが数式７で決定された値より小さい場合、フィルタ次数情報はサブバンドフィルタ係数の原本長さ値（ｎ_end）に代替される。すなわち、フィルタ次数情報は数式７によって決定された基準切断長さと、サブバンドフィルタ係数の原本長さのうちの小さい値に決定されることができる。

一方、周波数に応じたエネルギーの減衰はログスケールにおいて線形的に近似可能である。よって、カーブフィッティング（ｃｕｒｖｅｆｉｔｔｉｎｇ）方法を利用すれば、各サブバンドの最適化されたフィルタ次数情報を決定することができる。本発明の一実施形態によれば、フィルタ次数決定部３３４は、多項式カーブフィッティング（ｐｏｌｙｎｏｍｉａｌｃｕｒｖｅｆｉｔｔｉｎｇ）方法を利用してフィルタ次数情報を得ることができる。このために、フィルタ次数決定部３３４は、平均残響時間情報のカーブフィッティングのための少なくとも１つの係数を得ることができる。例えば、フィルタ次数決定部３３４は、各サブバンド別の平均残響時間情報をログスケールの一次方程式でカーブフィッティングし、その一次方程式の傾き値ａと切片値ｂを得ることができる。

サブバンドｋにおけるカーブフィッティングされたフィルタ次数情報Ｎ’_Filter［ｋ］は前記得られた係数を用いて次の数式によって得ることができる。

すなわち、カーブフィッティングされたフィルタ次数情報は、該サブバンドの平均残響時間情報の多項式カーブフィッティングされた値の整数単位の近似値を指数とする２の累乗値に決定されることができる。言い換えれば、カーブフィッティングされたフィルタ次数情報は、該サブバンドの平均残響時間情報の多項式カーブフィッティングされた値を四捨五入した値、切り上げした値、または切り下げした値を指数とする２の累乗値に決定されることができる。仮に、該サブバンドフィルタ係数の原本長さ、すなわち、最後のタイムスロット（ｎ_end）までの長さが数式８で決定された値より小さい場合、フィルタ次数情報はサブバンドフィルタ係数の原本長さ値（ｎ_end）に代替される。すなわち、フィルタ次数情報は数式８によって決定された基準切断長さと、サブバンドフィルタ係数の原本長さのうちの小さい値に決定されることができる。

本発明の実施形態によれば、原型ＢＲＩＲフィルタ係数、すなわち、時間ドメインのＢＲＩＲフィルタ係数がＨＲＩＲフィルタ係数であるか否か（ｆｌａｇ＿ＨＲＩＲ）に基づき、前記数式７または数式８のうちいずれか１つを用いてフィルタ次数情報が得られる。前述したように、ｆｌａｇ＿ＨＲＩＲの値は、原型ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かに基づいて決定されることができる。仮に、ＢＲＩＲフィルタ係数の長さが既に設定された値を超過する場合（すなわち、ｆｌａｇ＿ＨＲＩＲ＝０）、フィルタ次数情報は前記数式８によってカーブフィッティングされた値に決定されることができる。しかし、ＢＲＩＲフィルタ係数の長さが既に設定された値を超過しない場合（すなわち、ｆｌａｇ＿ＨＲＩＲ＝１）、フィルタ次数情報は前記数式７によってカーブフィッティングされていない値に決定されることができる。すなわち、フィルタ次数情報は、カーブフィッティングの実行なしで該サブバンドの平均残響時間情報に基づいて決定されることができる。これは、ＨＲＩＲの場合、ルーム（ｒｏｏｍ）の影響を受けないので、エネルギー減衰に対する傾向が明らかでないためである。

一方、本発明の実施形態によれば、０番目のサブバンド（サブバンドインデックス０）に対するフィルタ次数情報の取得時には、カーブフィッティングを実行していない平均残響時間情報を用いることができる。ルームモード（ｒｏｏｍｍｏｄｅ）の影響などにより、０番目のサブバンドの残響時間は他サブバンドの残響時間とは異なる傾向を有しうるためである。よって、本発明の実施形態によれば、数式８によるカーブフィッティングされたフィルタ次数情報は、インデックス０でないサブバンドにおいてｆｌａｇ＿ＨＲＩＲ＝０である時にのみ用いられる。

前述した実施形態に応じて決定された各サブバンドのフィルタ次数情報はＶＯＦＦフィルタ係数生成部３３６に伝達される。ＶＯＦＦフィルタ係数生成部３３６は、得られたフィルタ次数情報に基づいて切断されたサブバンドフィルタ係数を生成する。本発明の一実施形態によれば、切断されたサブバンドフィルタ係数は、ブロック単位（ｂｌｏｃｋ−ｗｉｓｅ）の高速コンボリューションのために既に設定されたブロック単位で高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｒｍ、ＦＦＴ）が行われた少なくとも１つのＦＦＴフィルタ係数で構成されることができる。ＶＯＦＦフィルタ係数生成部３３６は、図１７および図１８を参照して後述するように、ブロック単位（ｂｌｏｃｋ−ｗｉｓｅ）の高速コンボリューションのための前記ＦＦＴフィルタ係数を生成することができる。

本発明の実施形態によれば、効率および性能の観点における最適なバイノーラルレンダリングのために既に設定されたブロック単位の高速コンボリューションを実行することができる。ＦＦＴに基づいた高速コンボリューションはＦＦＴ大きさが大きいほど演算量が減るが、全体プロセッシングディレイは増加し、メモリ使用量は増えるという特徴を有する。仮に１秒の長さを有するＢＲＩＲを該当長さの２倍に該当する長さを有するＦＦＴ大きさで高速コンボリューションする場合、演算量の観点では効率的であるが、１秒に該当するディレイが発生し、それに対応するバッファとプロセッシングメモリが必要となる。長いディレイ時間を有するオーディオ信号処理方法はリアルタイムデータ処理のためのアプリケーションなどには好適ではない。オーディオ信号処理装置において復号化を実行できる最小の単位はフレームであるため、バイノーラルレンダリングもフレーム単位に対応する大きさでブロック単位の高速コンボリューションを実行することが好ましい。

図１７は、ブロック単位の高速コンボリューションのためのＦＦＴフィルタ係数生成方法の一実施形態を示している。前述した実施形態と同様に、図１７の実施形態において、原型ＦＩＲフィルタはＫ個のサブバンドフィルタに変換され、Ｆｋはサブバンドｋの切断されたサブバンドフィルタを示す。各サブバンド（Ｂａｎｄ０〜ＢａｎｄＫ−１）は周波数ドメインにおけるサブバンド、すなわち、ＱＭＦサブバンドを示す。ＱＭＦドメインは全６４個のサブバンドを用いることができるが、本発明はこれに限定されるものではない。また、Ｎは原本サブバンドフィルタの長さ（タップ数）を示し、切断されたサブバンドフィルタの長さは各々Ｎ１、Ｎ２、Ｎ３で示す。すなわち、Ｚｏｎｅ１に含まれたサブバンドｋの切断されたサブバンドフィルタ係数の長さはＮ１値を、Ｚｏｎｅ２に含まれたサブバンドｋの切断されたサブバンドフィルタ係数の長さはＮ２値を、Ｚｏｎｅ３に含まれたサブバンドｋの切断されたサブバンドフィルタ係数の長さはＮ３値を有する。この時、長さＮ、Ｎ１、Ｎ２およびＮ３はダウンサンプルされたＱＭＦドメインにおけるタップ数を示す。前述したように、切断されたサブバンドフィルタの長さは、図１７に示すように各サブバンドグループ（Ｚｏｎｅ１、Ｚｏｎｅ２、Ｚｏｎｅ３）別に独立に決定されてもよいが、各サブバンド別に独立に決定されてもよい。

図１７を参照すれば、本発明のＶＯＦＦフィルタ係数生成部３３６は、切断されたサブバンドフィルタ係数を該サブバンド（または、サブバンドグループ）における既に設定されたブロック単位で高速フーリエ変換を実行してＦＦＴフィルタ係数を生成することができる。この時、各サブバンドｋにおける既に設定されたブロックの長さ（Ｎ_FFT（ｋ））は既に設定された最大ＦＦＴ大きさ（Ｌ）に基づいて決定される。より具体的には、サブバンドｋにおける既に設定されたブロックの長さ（Ｎ_FFT（ｋ））は次のような数式で表すことができる。

ここで、Ｌは既に設定された最大ＦＦＴ大きさであり、Ｎ＿ｋは切断されたサブバンドフィルタ係数の基準フィルタ長さである。

すなわち、既に設定されたブロックの長さＮ_FFT（ｋ）は、切断されたサブバンドフィルタ係数の基準フィルタ長さ（Ｎ＿ｋ）の２倍と、既に設定された最大ＦＦＴ大きさ（Ｌ）のうちの小さい値に決定されることができる。仮に、図１７のＺｏｎｅ１およびＺｏｎｅ２のように、切断されたサブバンドフィルタ係数の基準フィルタ長さ（Ｎ＿ｋ）の２倍値が最大ＦＦＴ大きさ（Ｌ）より大きいかまたは同一である場合（または、大きい場合）、既に設定されたブロックの長さ（Ｎ_FFT（ｋ））は最大ＦＦＴ大きさ（Ｌ）に決定される。しかし、図１７のＺｏｎｅ３のように、切断されたサブバンドフィルタ係数の基準フィルタ長さ（Ｎ＿ｋ）の２倍値が最大ＦＦＴ大きさ（Ｌ）より小さい場合（または、小さいかまたは同一である場合）、既に設定されたブロックの長さ（Ｎ_FFT（ｋ））は基準フィルタ長さ（Ｎ＿ｋ）の２倍値に決定される。後述するように、切断されたサブバンドフィルタ係数はゼロ−パッデングによって２倍の長さに拡張された後に高速フーリエ変換が行われるため、高速フーリエ変換のためのブロックの長さ（Ｎ_FFT（ｋ））は基準フィルタ長さ（Ｎ＿ｋ）の２倍値と既に設定された最大ＦＦＴ大きさ（Ｌ）間の比較結果に基づいて決定されることができる。

ここで、基準フィルタ長さ（Ｎ＿ｋ）は、該サブバンドにおけるフィルタ次数（すなわち、切断されたサブバンドフィルタ係数の長さ）の２の累乗形態の真値または近似値のうちいずれか１つを示す。すなわち、サブバンドｋのフィルタ次数が２の累乗形態である場合は、該フィルタ次数がサブバンドｋにおける基準フィルタ長さ（Ｎ＿ｋ）として用いられ、２の累乗形態でない場合（例えば、ｎ_end）は、該フィルタ次数の２の累乗形態の四捨五入した値、切り上げした値、または切り下げした値が基準フィルタ長さ（Ｎ＿ｋ）として用いられる。一例として、Ｚｏｎｅ３のサブバンドＫ−１のフィルタ次数であるＮ３は２の累乗値ではないため、２の累乗形態の近似値であるＮ３’が該サブバンドの基準フィルタ長さ（Ｎ＿Ｋ−１）として用いられることができる。この時、基準フィルタ長さであるＮ３’の２倍値は最大ＦＦＴ大きさ（Ｌ）より小さいため、サブバンドＫ−１における既に設定されたブロックの長さ（Ｎ_FFT（Ｋ−１））はＮ３’の２倍値に設定されることができる。一方、本発明の実施形態によれば、既に設定されたブロックの長さ（Ｎ_FFT（ｋ））および基準フィルタ長さ（Ｎ＿ｋ）は全て２の累乗値となることができる。

このように、各サブバンドにおけるブロックの長さ（Ｎ_FFT（ｋ））が決定されれば、ＶＯＦＦフィルタ係数生成部３３６は決定されたブロック単位で切断されたサブバンドフィルタ係数に対する高速フーリエ変換を行う。より具体的には、ＶＯＦＦフィルタ係数生成部３３６は、切断されたサブバンドフィルタ係数を既に設定されたブロックの半分（Ｎ_FFT（ｋ）／２）単位に分割する。図１７に示されたＦ−パートの点線境界の領域は既に設定されたブロックの半分単位に分割されるサブバンドフィルタ係数を示す。次に、ＢＲＩＲパラメータ化部は、各々の分割されたフィルタ係数を用いて既に設定されたブロック単位（Ｎ_FFT（ｋ））の臨時フィルタ係数を生成する。この時、臨時フィルタ係数の前半部は分割されたフィルタ係数で構成され、後半部はゼロ−パッデングされた値で構成される。それにより、既に設定されたブロックの半分長さ（Ｎ_FFT（ｋ）／２）のフィルタ係数を用いて既に設定されたブロック長さ（Ｎ_FFT（ｋ））の臨時フィルタ係数が生成される。次に、ＢＲＩＲパラメータ化部は、前記生成された臨時フィルタ係数を高速フーリエ変換してＦＦＴフィルタ係数を生成する。このように生成されたＦＦＴフィルタ係数は、入力オーディオ信号に対する既に設定されたブロック単位の高速コンボリューションに用いられることができる。

このように、本発明の実施形態によれば、ＶＯＦＦフィルタ係数生成部３３６は、各サブバンド別に（または、サブバンドグループ別に）独立に決定された長さのブロック単位で、切断されたサブバンドフィルタ係数に対する高速フーリエ変換を実行してＦＦＴフィルタ係数を生成することができる。それにより、各サブバンド別に（または、各サブバンドグループ別に）互いに異なる個数のブロックを用いた高速コンボリューションが行われることができる。この時、サブバンドｋにおけるブロックの個数Ｎ_blk（ｋ）は次のような数式を満たすことができる。

ここで、Ｎ_blk（ｋ）は自然数。

すなわち、サブバンドｋにおけるブロックの個数（Ｎ_blk（ｋ））は、該サブバンドにおける基準フィルタ長さ（Ｎ＿ｋ）の２倍値を既に設定されたブロックの長さ（Ｎ_FFT（ｋ））で分けた値に決定されることができる。

図１８は、ブロック単位の高速コンボリューションのためのＦＦＴフィルタ係数生成方法の他の実施形態を示している。図１８の実施形態において、図１０または図１７の実施形態と同一または相応する部分については重複する説明は省略する。

図１８を参照すれば、周波数ドメインの複数のサブバンドは、既に設定された周波数バンド（ＱＭＦバンドｉ）を基準にした低周波数の第１サブバンドグループ（Ｚｏｎｅ１）と、高周波数の第２サブバンドグループ（Ｚｏｎｅ２）に分類されることができる。または、複数のサブバンドは、既に設定された第１周波数バンド（ＱＭＦバンドｉ）および第２周波数バンド（ＱＭＦバンドｊ）に基づいて３個のサブバンドグループ、すなわち、第１サブバンドグループ（Ｚｏｎｅ１）、第２サブバンドグループ（Ｚｏｎｅ２）、および第３サブバンドグループ（Ｚｏｎｅ３）に分類されることもできる。この時、第１サブバンドグループの入力サブバンド信号に対してはブロック単位の高速コンボリューションを用いたＦ−パートレンダリングが、第２サブバンドグループの入力サブバンド信号に対してはＱＴＤＬプロセッシングが行われることができる。そして、第３サブバンドグループのサブバンド信号に対してはレンダリングを行わなくてもよい。

よって、本発明の一実施形態によれば、前述した既に設定されたブロック単位のＦＦＴフィルタ係数の生成過程は、第１サブバンドグループのフロントサブバンドフィルタ（Ｆｋ）に対して限定的に行われることができる。一方、実施形態によっては第１サブバンドグループのサブバンド信号に対するＰ−パートレンダリングが後期残響生成部によって実行できるということは前述した通りである。本発明の実施形態によれば、入力オーディオ信号に対するＰ−パートレンダリング（すなわち、後期残響処理過程）は、原型ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かに基づいて行われることができる。前述したように、原型ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かはそれを指示するフラグ（すなわち、ｆｌａｇ＿ＢＲＩＲ）によって示されることができる。仮に原型ＢＲＩＲフィルタ係数の長さが既に設定された値を超過する場合（ｆｌａｇ＿ＨＲＩＲ＝０）、入力オーディオ信号に対するＰ−パートレンダリングが行われることができる。しかし、原型ＢＲＩＲフィルタ係数の長さが既に設定された値を超過しない場合（ｆｌａｇ＿ＨＲＩＲ＝１）、入力オーディオ信号に対するＰ−パートレンダリングが行われなくてもよい。

仮にＰ−パートレンダリングが行われないのであれば、第１サブバンドグループの各サブバンド信号にはＦ−パートレンダリングだけが行われることができる。しかし、Ｆ−パートレンダリングのために指定された各サブバンドのフィルタ次数（すなわち、切断地点）は該サブバンドフィルタ係数の全体長さより小さくてもよく、それによってエネルギーミスマッチ（ｅｎｅｒｇｙｍｉｓｍａｔｃｈ）が発生しうる。よって、それを防止するために、本発明の実施形態によれば、ｆｌａｇ＿ＨＲＩＲ情報に基づいて切断されたサブバンドフィルタ係数に対するエネルギー補償が行われることができる。すなわち、原型ＢＲＩＲフィルタ係数の長さが既に設定された値を超過しない場合（ｆｌａｇ＿ＨＲＩＲ＝１）、切断されたサブバンドフィルタ係数またはそれを構成する各ＦＦＴフィルタ係数にはエネルギー補償が行われたフィルタ係数が用いられることができる。この時、エネルギー補償は、フィルタ次数情報（Ｎ_Filter［ｋ］）に基づいた切断地点以前のフィルタ係数に対し、切断地点までのフィルタパワーを分け、該サブバンドフィルタ係数の全体フィルタパワーをかけることによって行われることができる。全体フィルタパワーは、該サブバンドフィルタ係数の初期のサンプルから最後のサンプル（ｎ_end）までのフィルタ係数に対するパワーの和として定義されることができる。

一方、本発明の他の実施形態によれば、各サブバンドフィルタ係数のフィルタ次数はチャネルごとに互いに異なるように設定されることができる。例えば、入力信号がより多いエネルギーを含むフロントチャネル（ｆｒｏｎｔｃｈａｎｎｅｌｓ）に対するフィルタ次数は、相対的に少ないエネルギーを含むリヤチャネル（ｒｅａｒｃｈａｎｎｅｌｓ）に対するフィルタ次数より高く設定されることができる。それにより、フロントチャネルに対してはバイノーラルレンダリング以後に反映される解像度を高め、リヤチャネルに対しては低い演算量でレンダリングを行うことができる。ここで、フロントチャネルとリヤチャネルの区分はマルチチャネル入力信号の各チャネルに割り当てられたチャネル名に限定されず、各チャネルは既に設定された空間的基準に基づいてフロントチャネルとリヤチャネルに分類されることができる。また、本発明の更なる実施形態によれば、マルチチャネルの各チャネルは既に設定された空間的基準に基づいて３個以上のチャネルグループに分類され、各チャネルグループ別に互いに異なるフィルタ次数が用いられることができる。または、各チャネルに対応するサブバンドフィルタ係数のフィルタ次数は、仮想再生空間上の該当チャネルの位置情報に基づいて互いに異なる加重値が適用された値が用いられることができる。

図１９は、本発明のＱＴＤＬパラメータ化部の各構成を示すブロック図である。図示したように、ＱＴＤＬパラメータ化部３８０はピーク探索部３８２およびゲイン生成部３８４を含むことができる。ＱＴＤＬパラメータ化部３８０はＦ−パートパラメータ化部３２０からＱＭＦドメインのサブバンドフィルタ係数を受信することができる。また、ＱＴＤＬパラメータ化部３８０は、バイノーラルレンダリングを行う最大周波数バンドの情報（Ｋｐｒｏｃ）およびコンボリューションを行う周波数バンドの情報（Ｋｃｏｎｖ）を制御パラメータとして受信することができ、ＫｐｒｏｃとＫｃｏｎｖを境界とするサブバンドグループ（第２サブバンドグループ）の各周波数バンドに対してディレイ情報およびゲイン情報を生成することができる。

ここで、ｎ_endは該サブバンドフィルタ係数の最後のタイムスロットを示す。

すなわち、数式１１を参照すれば、ディレイ情報は該ＢＲＩＲサブバンドフィルタ係数の大きさが最大となるタイムスロットの情報を示し、これは該ＢＲＩＲサブバンドフィルタ係数の最大ピークの位置情報を示す。また、数式１２を参照すれば、ゲイン情報は、該ＢＲＩＲサブバンドフィルタ係数の全体パワー値に、前記最大ピーク位置におけるＢＲＩＲサブバンドフィルタ係数の符号をかけた値に決定されることができる。

ピーク探索部３８２は、数式１１に基づき、第２サブバンドグループの各サブバンドフィルタ係数における最大ピークの位置、すなわち、ディレイ情報を得る。また、ゲイン生成部３８４は、数式１２に基づき、各サブバンドフィルタ係数に対するゲイン情報を得る。数式１１および数式１２はディレイ情報およびゲイン情報を得る数式の一例を示すが、各情報を算出するための数式の具体的な形態は多様に変形可能である。

以上では本発明を具体的な実施形態によって説明したが、当業者であれば、本発明の趣旨および範囲を逸脱することなく修正、変更をすることができる。すなわち、本発明はマルチオーディオ信号に対するバイノーラルレンダリングの実施形態について説明したが、本発明はオーディオ信号だけでなくビデオ信号を含む様々なマルチメディア信号にも同様に適用および拡張することができる。よって、本発明の詳細な説明および実施形態から本発明が属する技術分野に属した者が容易に類推できるものは本発明の権利範囲に属すると解釈される。

Claims

入力オーディオ信号のバイノーラルフィルタリングのための少なくとも１つのＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数を受信するステップ；
前記ＢＲＩＲフィルタ係数を複数のサブバンドフィルタ係数に変換するステップ；
前記サブバンドフィルタ係数から抽出された残響時間情報を用いて該サブバンドの平均残響時間情報を得るステップ；
前記得られた平均残響時間情報のカーブフィッティング（ｃｕｒｖｅｆｉｔｔｉｎｇ）のための少なくとも１つの係数を得るステップ；
時間ドメイン上における前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を得るステップ；
前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るステップ、前記フィルタ次数情報は前記得られたフラグ情報に応じて前記平均残響時間情報または前記少なくとも１つの係数を用いて得られ、少なくとも１つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なる；および
前記得られたフィルタ次数情報を用いて前記サブバンドフィルタ係数を切断するステップ；
を含むことを特徴とするオーディオ信号のフィルタ生成方法。
前記フラグ情報が前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過することを示す場合、前記フィルタ次数情報は前記得られた少なくとも１つの係数を用いてカーブフィッティングされた値に基づいて決定されることを特徴とする、請求項１に記載のオーディオ信号のフィルタ生成方法。
前記カーブフィッティングされたフィルタ次数情報は、前記少なくとも１つの係数を用いて多項式カーブフィッティングされた値の整数単位の近似値を指数とする２の累乗値に決定されることを特徴とする、請求項２に記載のオーディオ信号のフィルタ生成方法。
前記フラグ情報が前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過しないことを示す場合、前記フィルタ次数情報は前記カーブフィッティングの実行なしで該サブバンドの前記平均残響時間情報に基づいて決定されることを特徴とする、請求項１に記載のオーディオ信号のフィルタ生成方法。
前記フィルタ次数情報は、前記平均残響時間情報のログスケールの整数単位の近似値を指数とする２の累乗値に決定されることを特徴とする、請求項４に記載のオーディオ信号のフィルタ生成方法。
前記フィルタ次数情報は、前記平均残響時間情報に基づいて決定された該サブバンドの基準切断長さと前記サブバンドフィルタ係数の原本長さのうちの小さい値に決定されることを特徴とする、請求項１に記載のオーディオ信号のフィルタ生成方法。
前記基準切断長さは２の累乗値であることを特徴とする、請求項６に記載のオーディオ信号のフィルタ生成方法。
前記フィルタ次数情報は各サブバンド別に１つの値を有することを特徴とする、請求項１に記載のオーディオ信号のフィルタ生成方法。
前記平均残響時間情報は、同一サブバンドの少なくとも１つのサブバンドフィルタ係数から抽出されたチャネル別の残響時間情報の平均値であることを特徴とする、請求項１に記載のオーディオ信号のフィルタ生成方法。
オーディオ信号のフィルタを生成するためのパラメータ化装置であって、
前記パラメータ化装置は、
入力オーディオ信号のバイノーラルフィルタリングのための少なくとも１つのＢＲＩＲ（ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ係数を受信し；
前記ＢＲＩＲフィルタ係数を複数のサブバンドフィルタ係数に変換し；
前記サブバンドフィルタ係数から抽出された残響時間情報を用いて該サブバンドの平均残響時間情報を取得し；
前記得られた平均残響時間情報のカーブフィッティング（ｃｕｒｖｅｆｉｔｔｉｎｇ）のための少なくとも１つの係数を取得し；
時間ドメイン上における前記ＢＲＩＲフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を取得し；
前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るが、前記フィルタ次数情報は前記得られたフラグ情報に応じて前記平均残響時間情報または前記少なくとも１つの係数を用いて得られ、少なくとも１つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なり；
前記得られたフィルタ次数情報を用いて前記サブバンドフィルタ係数を切断する；
パラメータ化装置。