JP6151866B2 - オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置 - Google Patents

オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置 Download PDF

Info

Publication number
JP6151866B2
JP6151866B2 JP2016542765A JP2016542765A JP6151866B2 JP 6151866 B2 JP6151866 B2 JP 6151866B2 JP 2016542765 A JP2016542765 A JP 2016542765A JP 2016542765 A JP2016542765 A JP 2016542765A JP 6151866 B2 JP6151866 B2 JP 6151866B2
Authority
JP
Japan
Prior art keywords
filter
subband
brir
information
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016542765A
Other languages
English (en)
Other versions
JP2017505039A (ja
Inventor
テキョ リ
テキョ リ
ヒョンオ オ
ヒョンオ オ
Original Assignee
ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド
ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド, ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド filed Critical ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド
Publication of JP2017505039A publication Critical patent/JP2017505039A/ja
Application granted granted Critical
Publication of JP6151866B2 publication Critical patent/JP6151866B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

本発明は、オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置に関し、より詳しくは、入力オーディオ信号に対するフィルタリングを低演算量で実現するためのオーディオ信号のフィルタ生成方法およびパラメータ化装置に関する。
マルチチャネル信号をステレオで聴取するためのバイノーラルレンダリング(binaural rendering)は、ターゲットフィルタの長さが増加するほど多くの演算量が求められるという問題がある。特に、録音室の特性を反映したBRIR(Binaural Room Impulse Response)フィルタを用いる場合、その長さは48,000〜96,000サンプルに達したりもする。ここで、22.2チャネルフォーマットのように入力チャネル数が増加すれば、その演算量は莫大である。
ここで、mはLまたはRであり、*はコンボリューション(convolution)を意味する。上記の時間−ドメインコンボリューションは一般的に高速フーリエ変換(Fast Fourier Transform、FFT)に基づいた高速コンボリューション(fast convolution)を用いて行われる。高速コンボリューションを用いてバイノーラルレンダリングを行う場合、入力チャネル数に該当する回数のFFTと出力チャネル数に該当する回数の逆高速フーリエ変換(Inverse FFT)を実行しなければならない。その上、マルチチャネルオーディオコーデックのようにリアルタイム再生環境の場合にディレイを考慮しなければならないため、ブロック単位(block−wise)の高速コンボリューションを実行しなければならず、これは全体長さに対して単に高速コンボリューションを実行した時よりさらに多い演算量を消耗する。
しかし、大半のコード体系(coding scheme)は周波数ドメインで行われ、一部のコード体系(例えば、HE−AAC、USACなど)の場合、復号化過程の最後の段階がQMFドメインで行われる。よって、上記の数式1のようにバイノーラルフィルタリングが時間ドメインで行われる場合、チャネル数だけのQMF合成(QMF synthesis)のための演算がさらに必要であるために非常に非効率的である。よって、バイノーラルレンダリングをQMFドメインにおいて直接実行する場合に利得がある。
本発明は、マルチチャネルあるいはマルチオブジェクト信号をステレオで再生するにおいて、原信号のような立体感を保存するためのバイノーラルレンダリングにおいて多くの演算量を必要とするフィルタリング過程を音質損失を最小化し、且つ、非常に低い演算量で実現することを目的とする。
また、本発明は、入力信号そのものに歪みがある場合、高品質フィルタを介して歪みの拡散が発生することを最小化することを目的とする。
また、本発明は、非常に長い長さを有するFIR(Finite Impulse Response)フィルタをさらに小さい長さのフィルタに実現することを目的とする。
また、本発明は、縮約されたFIRフィルタを用いたフィルタリングの実行時、抜け落ちたフィルタ係数によって損傷した部分の歪みを最小化することを目的とする。
前記のような課題を解決するために、本発明は、次のようなオーディオ信号処理方法およびオーディオ信号処理装置を提供する。
先ず、本発明は、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも1つのBRIR(Binaural Room Impulse Response)フィルタ係数を受信するステップ;前記BRIRフィルタ係数を複数のサブバンドフィルタ係数に変換するステップ;前記サブバンドフィルタ係数から抽出された残響時間情報を用いて該サブバンドの平均残響時間情報を得るステップ;前記得られた平均残響時間情報のカーブフィッティング(curve fitting)のための少なくとも1つの係数を得るステップ;時間ドメイン上における前記BRIRフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を得るステップ;前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るステップ、前記フィルタ次数情報は前記得られたフラグ情報に応じて前記平均残響時間情報または前記少なくとも1つの係数を用いて得られ、少なくとも1つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なる;および前記得られたフィルタ次数情報を用いて前記サブバンドフィルタ係数を切断するステップ;を含むことを特徴とするオーディオ信号のフィルタ生成方法を提供する。
また、オーディオ信号のフィルタを生成するためのパラメータ化部であって、前記パラメータ化部は、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも1つのBRIR(Binaural Room Impulse Response)フィルタ係数を受信し;前記BRIRフィルタ係数を複数のサブバンドフィルタ係数に変換し;前記サブバンドフィルタ係数から抽出された残響時間情報を用いて該サブバンドの平均残響時間情報を取得し;前記得られた平均残響時間情報のカーブフィッティング(curve fitting)のための少なくとも1つの係数を取得し;時間ドメイン上における前記BRIRフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を取得し;前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るが、前記フィルタ次数情報は前記得られたフラグ情報に応じて前記平均残響時間情報または前記少なくとも1つの係数を用いて得られ、少なくとも1つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なり;前記得られたフィルタ次数情報を用いて前記サブバンドフィルタ係数を切断するパラメータ化部を提供する。
本発明の実施形態によれば、前記フラグ情報が前記BRIRフィルタ係数の長さが既に設定された値を超過することを示す場合、前記フィルタ次数情報は前記得られた少なくとも1つの係数を用いてカーブフィッティングされた値に基づいて決定されることを特徴とする。
この時、前記カーブフィッティングされたフィルタ次数情報は、前記少なくとも1つの係数を用いて多項式カーブフィッティングされた値の整数単位の近似値を指数とする2の累乗値に決定されることを特徴とする。
また、本発明の実施形態によれば、前記フラグ情報が前記BRIRフィルタ係数の長さが既に設定された値を超過しないことを示す場合、前記フィルタ次数情報は前記カーブフィッティングの実行なしで該サブバンドの前記平均残響時間情報に基づいて決定されることを特徴とする。
ここで、前記フィルタ次数情報は、前記平均残響時間情報のログスケールの整数単位の近似値を指数とする2の累乗値に決定されることを特徴とする。
また、前記フィルタ次数情報は、前記平均残響時間情報に基づいて決定された該サブバンドの基準切断長さと前記サブバンドフィルタ係数の原本長さのうちの小さい値に決定されることを特徴とする。
また、前記基準切断長さは2の累乗値であることを特徴とする。
また、前記フィルタ次数情報は各サブバンド別に1つの値を有することを特徴とする。
本発明の実施形態によれば、前記平均残響時間情報は、同一サブバンドの少なくとも1つのサブバンドフィルタ係数から抽出されたチャネル別の残響時間情報の平均値であることを特徴とする。
本発明の他の実施形態によれば、入力オーディオ信号を受信するステップ;前記入力オーディオ信号のバイノーラルフィルタリングのための少なくとも1つのBRIR(Binaural Room Impulse Response)フィルタ係数を受信するステップ;前記BRIRフィルタ係数を複数のサブバンドフィルタ係数に変換するステップ;時間ドメイン上における前記BRIRフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を得るステップ;前記各サブバンドフィルタ係数を該サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて得られたフィルタ次数情報に基づいて切断するステップ、前記切断されたサブバンドフィルタ係数は前記フラグ情報に基づいてエネルギー補償が行われたフィルタ係数であり、少なくとも1つの前記切断されたサブバンドフィルタ係数の長さは他サブバンドの切断されたサブバンドフィルタ係数の長さとは異なる;および前記切断されたサブバンドフィルタ係数を用いて入力オーディオ信号の各サブバンド信号をフィルタリングするステップ;を含むことを特徴とするオーディオ信号処理方法を提供する。
また、入力オーディオ信号に対するバイノーラルレンダリングを実行するためのオーディオ信号処理装置であって、前記入力オーディオ信号のフィルタを生成するためのパラメータ化部;および前記入力オーディオ信号を受信し、前記パラメータ化部で生成されたパラメータを用いて前記入力オーディオ信号をフィルタリングするバイノーラルレンダリングユニットを含み、前記パラメータ化部は、前記入力オーディオ信号のバイノーラルフィルタリングのための少なくとも1つのBRIR(Binaural Room Impulse Response)フィルタ係数を受信し、前記BRIRフィルタ係数を複数のサブバンドフィルタ係数に変換し、時間ドメイン上における前記BRIRフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を取得し、前記各サブバンドフィルタ係数を該サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて得られたフィルタ次数情報に基づいて切断するが、前記切断されたサブバンドフィルタ係数は前記フラグ情報に基づいてエネルギー補償が行われたフィルタ係数であり、少なくとも1つの前記切断されたサブバンドフィルタ係数の長さは他サブバンドの切断されたサブバンドフィルタ係数の長さとは異なり、前記バイノーラルレンダリングユニットは、前記切断されたサブバンドフィルタ係数を用いて前記入力オーディオ信号の各サブバンド信号をフィルタリングするオーディオ信号処理装置を提供する。
また、オーディオ信号のフィルタを生成するためのパラメータ化部であって、前記パラメータ化部は、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも1つのBRIR(Binaural Room Impulse Response)フィルタ係数を受信し;前記BRIRフィルタ係数を複数のサブバンドフィルタ係数に変換し;時間ドメイン上における前記BRIRフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を取得し;前記各サブバンドフィルタ係数を該サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて得られたフィルタ次数情報に基づいて切断するが、前記切断されたサブバンドフィルタ係数は前記フラグ情報に基づいてエネルギー補償が行われたフィルタ係数であり、少なくとも1つの前記切断されたサブバンドフィルタ係数の長さは他サブバンドの切断されたサブバンドフィルタ係数の長さとは異なるパラメータ化部を提供する。
この時、前記エネルギー補償は、前記フラグ情報が前記BRIRフィルタ係数の長さが既に設定された値を超過しないをことを示す場合に行われることを特徴とする。
また、前記エネルギー補償は、前記フィルタ次数情報に基づいた切断地点以前のフィルタ係数に対し、前記切断地点までのフィルタパワーを分け、該サブバンドフィルタ係数の全体フィルタパワーをかけることによって行われうことを特徴とする。
一実施形態によれば、前記フラグ情報が前記BRIRフィルタ係数の長さが既に設定された値を超過することを示す場合、前記サブバンドフィルタ係数のうち前記切断されたサブバンドフィルタ係数以後の区間に対応する前記サブバンド信号の残響処理ステップをさらに含むことを特徴とする。
また、前記特性情報は該サブバンドフィルタ係数の残響時間情報を含み、前記フィルタ次数情報は各サブバンド別に1つの値を有することを特徴とする。
本発明のまた他の実施形態によれば、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも1つの時間ドメインBRIR(Binaural Room Impulse Response)フィルタ係数を受信するステップ;前記時間ドメインBRIRフィルタ係数の伝播時間情報を得るステップ、前記伝播時間情報は前記BRIRフィルタ係数の初期サンプルから直接音までの時間を示す;前記得られた伝播時間情報以後の前記時間ドメインBRIRフィルタ係数をQMF変換して複数のサブバンドフィルタ係数を生成するステップ;前記サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて、前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るステップ、少なくとも1つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なる;および前記得られたフィルタ次数情報に基づいて前記サブバンドフィルタ係数を切断するステップ;を含むことを特徴とするオーディオのフィルタ生成方法を提供する。
また、オーディオ信号のフィルタを生成するためのパラメータ化部であって、前記パラメータ化部は、入力オーディオ信号のバイノーラルフィルタリングのための少なくとも1つの時間ドメインBRIR(Binaural Room Impulse Response)フィルタ係数を受信し;前記時間ドメインBRIRフィルタ係数の伝播時間情報を得るが、前記伝播時間情報は前記BRIRフィルタ係数の初期サンプルから直接音までの時間を示し;前記得られた伝播時間情報以後の前記時間ドメインBRIRフィルタ係数をQMF変換して複数のサブバンドフィルタ係数を生成し;前記サブバンドフィルタ係数から抽出された特性情報を少なくとも部分的に用いて、前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るが、少なくとも1つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なり;前記得られたフィルタ次数情報に基づいて前記サブバンドフィルタ係数を切断するパラメータ化部を提供する。
この時、前記伝播時間情報を得るステップは、既に設定されたホップ単位でシフト(shifting)してフレームエネルギーを測定するステップ;前記測定されたフレームエネルギーが既に設定された閾値より大きい最初のフレームを判別するステップ;および前記判別された最初のフレームの位置情報に基づいて前記伝播時間情報を得るステップ;を含むことを特徴とする。
また、前記フレームエネルギーを測定するステップは、同一時間領域に対する各チャネル別のフレームエネルギーの平均値を測定することを特徴とする。
一実施形態によれば、前記閾値は、前記測定されたフレームエネルギーの最大値より既に設定された比率の低い値に決定されることを特徴とする。
また、前記特性情報は該サブバンドフィルタ係数の残響時間情報を含み、前記フィルタ次数情報は各サブバンド別に1つの値を有することを特徴とする。
本発明の実施形態によれば、マルチチャネルあるいはマルチオブジェクト信号に対するバイノーラルレンダリングの実行時に音質損失を最小化し、且つ、演算量を画期的に減らすことができる。
本発明の実施形態によれば、従来の低電力装置においてリアルタイム処理が不可能であったマルチチャネルあるいはマルチオブジェクトオーディオ信号に対する高音質のバイノーラルレンダリングが可能となるようにする。
本発明は、オーディオ信号を含む様々な形態のマルチメディア信号のフィルタリングを低演算量で効率的に行う方法を提供する。
本発明の実施形態によるオーディオ信号デコーダを示すブロック図である。 本発明の一実施形態によるバイノーラルレンダラーの各構成を示すブロック図である。 本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。 本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。 本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。 本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。 本発明によるオーディオ信号処理装置の様々な実施形態を示す図である。 本発明の実施形態によるバイノーラルレンダリングのためのFIRフィルタ生成方法を示す図である。 本発明の実施形態によるバイノーラルレンダリングのためのFIRフィルタ生成方法を示す図である。 本発明の実施形態によるバイノーラルレンダリングのためのFIRフィルタ生成方法を示す図である。 本発明のP−パートレンダリング部の様々な実施形態を示す図である。 本発明のQTDLプロセッシングの様々な実施形態を示す図である。 本発明のQTDLプロセッシングの様々な実施形態を示す図である。 本発明のBRIRパラメータ化部の各構成を示すブロック図である。 本発明のF−パートパラメータ化部の各構成を示すブロック図である。 本発明のF−パートパラメータ生成部の細部構成を示すブロック図である。 ブロック単位の高速コンボリューションのためのFFTフィルタ係数生成方法の実施形態を示す図である。 ブロック単位の高速コンボリューションのためのFFTフィルタ係数生成方法の実施形態を示す図である。 本発明のQTDLパラメータ化部の各構成を示すブロック図である。
本明細書で用いられる用語は本発明における機能を考慮して可能な限り現在広く用いられる一般的な用語を選択しているが、これは当分野における技術者の意図、慣例または新しい技術の出現などによって異なりうる。また、特定の場合には出願人が任意に選定した用語もあり、この場合には該発明の説明の部分にその意味を記載することにする。よって、本明細書で用いられる用語は、単純な用語の名称でなく、その用語が有した実質的な意味と本明細書の全般にわたった内容に基づいて解釈しなければならないということを明らかにしておく。
図1は、本発明の実施形態によるオーディオ信号デコーダを示すブロック図である。本発明のオーディオ信号デコーダは、コアデコーダ10、レンダリングユニット20、ミキサー30、およびポストプロセッシングユニット40を含む。
先ず、コアデコーダ10は、スピーカー(loudspeaker)チャネル信号、個別(discrete)オブジェクト信号、オブジェクトダウンミックス信号および事前−レンダリングされた(pre−rendered)信号などを復号化する。一実施形態によれば、前記コアデコーダ10においては、USAC(Unified Speech and Audio Coding)ベースのコーデックが用いられることができる。コアデコーダ10は、受信されたビットストリームを復号化してレンダリングユニット20に伝達する。
レンダリングユニット20は、コアデコーダ10によって復号化された信号を再生レイアウト(reproduction layout)情報を用いてレンダリングする。レンダリングユニット20は、フォーマットコンバータ22、オブジェクトレンダラー24、OAMデコーダ25、SAOCデコーダ26およびHOAデコーダ28を含むことができる。レンダリングユニット20は、復号化された信号のタイプに応じて前記構成のうちいずれか1つを用いてレンダリングを行う。
フォーマットコンバータ22は、送信されたチャネル信号を出力スピーカチャネル信号に変換する。すなわち、フォーマットコンバータ22は、送信されたチャネル構成(configuration)と再生しようとするスピーカチャネル構成間の変換を行う。仮に、出力スピーカチャネルの個数(例えば、5.1チャネル)が送信されたチャネルの個数(例えば、22.2チャネル)より少ないかまたは送信されたチャネル構成と再生しようとするチャネル構成が異なる場合、フォーマットコンバータ22は送信されたチャネル信号に対するダウンミックスを行う。本発明のオーディオ信号デコーダは、入力チャネル信号と出力スピーカチャネル信号間の組み合わせを用いて最適のダウンミックスマトリックスを生成し、前記マトリックスを用いてダウンミックスを行うことができる。本発明の実施形態によれば、フォーマットコンバータ22が処理するチャネル信号には事前−レンダリングされたオブジェクト信号が含まれることができる。一実施形態によれば、オーディオ信号の符号化前に少なくとも1つのオブジェクト信号が事前−レンダリングされてチャネル信号にミックス(mix)できる。このようにミックスされたオブジェクト信号は、チャネル信号と共にフォーマットコンバータ22によって出力スピーカチャネル信号に変換されることができる。
オブジェクトレンダラー24およびSAOCデコーダ26は、オブジェクトベースのオーディオ信号に対するレンダリングを行う。オブジェクトベースのオーディオ信号には、個別オブジェクトウェーブフォームとパラメトリックオブジェクトウェーブフォームが含まれることができる。個別オブジェクトウェーブフォームの場合、各オブジェクト信号はモノフォニック(monophonic)ウェーブフォームでエンコーダに提供され、エンコーダは単一チャネルエレメント(Single Channel Elements、SCEs)を用いて各オブジェクト信号を送信する。パラメトリックオブジェクトウェーブフォームの場合、複数のオブジェクト信号が少なくとも1つのチャネル信号にダウンミックスされ、各オブジェクトの特徴とこれら間の関係がSAOC(Spatial Audio Object Coding)パラメータで表現される。オブジェクト信号はダウンミックスされてコアコーデックで符号化され、この時に生成されるパラメトリック情報が共にデコーダに送信される。
一方、個別オブジェクトウェーブフォームまたはパラメトリックオブジェクトウェーブフォームがオーディオ信号デコーダに送信される時、それに対応する圧縮されたオブジェクトメタデータが共に送信されることができる。オブジェクトメタデータは、オブジェクト属性を時間と空間単位で量子化して3次元空間における各オブジェクトの位置およびゲイン値を指定する。レンダリングユニット20のOAMデコーダ25は、圧縮されたオブジェクトメタデータを受信し、それを復号化してオブジェクトレンダラー24および/またはSAOCデコーダ26に伝達する。
オブジェクトレンダラー24は、オブジェクトメタデータを用いて各オブジェクト信号を与えられた再生フォーマットに応じてレンダリングする。この時、各オブジェクト信号は、オブジェクトメタデータに基づいて特定の出力チャネルにレンダリングされることができる。SAOCデコーダ26は、復号化されたSAOC送信チャネルとパラメトリック情報からオブジェクト/チャネル信号を復元する。前記SAOCデコーダ26は、再生レイアウト情報とオブジェクトメタデータに基づいて出力オーディオ信号を生成することができる。このように、オブジェクトレンダラー24およびSAOCデコーダ26はオブジェクト信号をチャネル信号にレンダリングすることができる。
HOAデコーダ28は、HOA(Higher Order Ambisonics)信号およびHOA付加情報を受信し、それを復号化する。HOAデコーダ28は、チャネル信号やオブジェクト信号を別途の数式でモデリングしてサウンドシーン(sound scene)を生成する。生成されたサウンドシーンにおいてスピーカがある空間上の位置を選択すれば、スピーカチャネル信号にレンダリングが行われることができる。
一方、図1には示されていないが、レンダリングユニット20の各構成要素にオーディオ信号が伝達される時、前処理過程としてダイナミックレンジ制御(Dynamic Range Control、DRC)が行われることができる。DRCは再生するオーディオ信号の動的範囲を一定レベルに制限することであり、既に設定された閾値(threshold)より小さい音はより大きく、既に設定された閾値より大きい音はより小さく調整する。
レンダリングユニット20によって処理されたチャネルベースのオーディオ信号およびオブジェクトベースのオーディオ信号はミキサー30に伝達される。ミキサー30は、チャネルベースのウェーブフォームとレンダリングされたオブジェクトウェーブフォームのディレイ(delay)を調整し、それをサンプル単位で合算する。ミキサー30によって合算されたオーディオ信号はポストプロセッシングユニット40に伝達される。
ポストプロセッシングユニット40は、スピーカレンダラー100とバイノーラルレンダラー200とを含む。スピーカレンダラー100は、ミキサー30から伝達されたマルチチャネルおよび/またはマルチオブジェクトオーディオ信号を出力するためのポストプロセッシングを行う。このようなポストプロセッシングには、ダイナミックレンジ制御(DRC)、音量正規化(Loudness Normalization、LN)およびピークリミッタ(Peak Limiter、PL)などが含まれることができる。
バイノーラルレンダラー200は、マルチチャネルおよび/またはマルチオブジェクトオーディオ信号のバイノーラルダウンミックス信号を生成する。バイノーラルダウンミックス信号は、各入力チャネル/オブジェクト信号が3次元上に位置した仮想の音源によって表現されるようにする2チャネルのオーディオ信号である。バイノーラルレンダラー200は、スピーカレンダラー100に供給されるオーディオ信号を入力信号として受信することができる。バイノーラルレンダリングはBRIR(Binaural Room Impulse Response)フィルタに基づいて行われ、時間ドメインまたはQMFドメイン上で行われることができる。実施形態によれば、バイノーラルレンダリングの後処理過程として、前述したダイナミックレンジ制御(DRC)、音量正規化(LN)およびピークリミッタ(PL)などがさらに行われることができる。
図2は、本発明の一実施形態によるバイノーラルレンダラーの各構成を示すブロック図である。図示すように、本発明の実施形態によるバイノーラルレンダラー200は、BRIRパラメータ化部300、高速コンボリューション部230、後期残響生成部240、QTDLプロセッシング部250、およびミキサー&コンバイナ260を含むことができる。
バイノーラルレンダラー200は、様々なタイプの入力信号に対するバイノーラルレンダリングを行って、3Dオーディオヘッドホン信号(すなわち、3Dオーディオ2チャネル信号)を生成する。この時、入力信号は、チャネル信号(すなわち、スピーカチャネル信号)、オブジェクト信号およびHOA信号のうち少なくとも1つを含むオーディオ信号であってもよい。本発明の他の実施形態によれば、バイノーラルレンダラー200が別途のデコーダを含む場合、前記入力信号は、前述したオーディオ信号の符号化されたビットストリームであってもよい。バイノーラルレンダリングは、復号化された入力信号をバイノーラルダウンミックス信号に変換して、ヘッドホンで聴取時にサラウンド音響を体験することができるようにする。
すなわち、バイノーラルレンダリングは、QMFドメインのチャネル信号またはオブジェクト信号を複数のサブバンド信号に分け、各サブバンド信号をそれに対応するBRIRサブバンドフィルタとコンボリューションした後に合算する方法により行われることができる。
BRIRパラメータ化部300は、QMFドメインにおけるバイノーラルレンダリングのためにBRIRフィルタ係数を変換および編集し、各種パラメータを生成する。先ず、BRIRパラメータ化部300は、マルチチャネルまたはマルチオブジェクトに対する時間ドメインBRIRフィルタ係数を受信し、それをQMFドメインBRIRフィルタ係数に変換する。この時、QMFドメインBRIRフィルタ係数は、複数の周波数バンドに各々対応する複数のサブバンドフィルタ係数を含む。本発明において、サブバンドフィルタ係数は、QMF変換されたサブバンドドメインの各BRIRフィルタ係数を示す。本明細書において、サブバンドフィルタ係数はBRIRサブバンドフィルタ係数と称することもできる。BRIRパラメータ化部300は、QMFドメインの複数のBRIRサブバンドフィルタ係数を各々編集し、編集されたサブバンドフィルタ係数を高速コンボリューション部230などに伝達することができる。本発明の実施形態によれば、BRIRパラメータ化部300はバイノーラルレンダラー200の一構成要素として含まれてもよく、別途の装置として備えられてもよい。一実施形態によれば、BRIRパラメータ化部300を除いた高速コンボリューション部230、後期残響生成部240、QTDLプロセッシング部250、およびミキサー&コンバイナ260を含む構成がバイノーラルレンダリングユニット220に分類されることができる。
一実施形態によれば、BRIRパラメータ化部300は、仮想再生空間の少なくとも1つの位置に対応するBRIRフィルタ係数を入力として受信することができる。前記仮想再生空間の各位置はマルチチャネルシステムの各スピーカ位置に対応する。一実施形態によれば、BRIRパラメータ化部300が受信した各BRIRフィルタ係数は、バイノーラルレンダラー200の入力信号の各チャネルまたは各オブジェクトに直接マッチングされることができる。その反面、本発明の他の実施形態によれば、前記受信された各BRIRフィルタ係数は、バイノーラルレンダラー200の入力信号に独立した構成(configuration)を有することができる。すなわち、BRIRパラメータ化部300が受信したBRIRフィルタ係数のうち少なくとも一部はバイノーラルレンダラー200の入力信号に直接マッチングされなくてもよく、受信されたBRIRフィルタ係数の個数は入力信号のチャネルおよび/またはオブジェクトの総数より小さいか大きくてもよい。
BRIRパラメータ化部300は、制御パラメータ情報の入力を追加的に受け、入力された制御パラメータ情報に基づいて前述したバイノーラルレンダリングのためのパラメータを生成することができる。制御パラメータ情報は後述する実施形態のように複雑度−クォリティー制御パラメータなどを含むことができ、BRIRパラメータ化部300の各種パラメータ化過程のための閾値として用いられることができる。このような入力値に基づき、BRIRパラメータ化部300は、バイノーラルレンダリングパラメータを生成し、それをバイノーラルレンダリングユニット220に伝達する。仮に入力BRIRフィルタ係数や制御パラメータ情報が変更される場合、BRIRパラメータ化部300はバイノーラルレンダリングパラメータを再計算してバイノーラルレンダリングユニットに伝達することができる。
本発明の実施形態によれば、BRIRパラメータ化部300は、バイノーラルレンダラー200の入力信号の各チャネルまたは各オブジェクトに対応するBRIRフィルタ係数を変換および編集してバイノーラルレンダリングユニット220に伝達することができる。前記対応するBRIRフィルタ係数は、各チャネルまたは各オブジェクトに対するマッチングBRIRまたはフォールバック(fallback)BRIRであってもよい。BRIRマッチングは、仮想再生空間上で各チャネルまたは各オブジェクトの位置をターゲットとするBRIRフィルタ係数が存在するか否かによって決定される。この時、各チャネル(またはオブジェクト)の位置情報はチャネル構成をシグナリングする入力パラメータから得られる。仮に、入力信号の各チャネルまたは各オブジェクトの位置のうち少なくとも1つをターゲットとするBRIRフィルタ係数が存在する場合、該BRIRフィルタ係数は入力信号のマッチングBRIRであってもよい。しかし、特定チャネルまたはオブジェクトの位置をターゲットとするBRIRフィルタ係数が存在しない場合、BRIRパラメータ化部300は該チャネルまたはオブジェクトと最も類似する位置をターゲットとするBRIRフィルタ係数を該チャネルまたはオブジェクトに対するフォールバックBRIRとして提供することができる。
先ず、所望の位置(特定チャネルまたはオブジェクト)と既に設定された範囲内の高度および方位角偏差を有するBRIRフィルタ係数がある場合には該BRIRフィルタ係数が選択される。例えば、所望の位置と同一な高度および+/−20゜以内の方位角偏差を有するBRIRフィルタ係数が選択されることができる。仮に、それに該当するBRIRフィルタ係数がない場合には、BRIRフィルタ係数セット(set)のうち前記所望の位置と最小の幾何学的距離を有するBRIRフィルタ係数が選択される。すなわち、該BRIRの位置と前記所望の位置間の幾何学的距離を最小とするBRIRフィルタ係数が選択されることができる。ここで、BRIRの位置は該BRIRフィルタ係数に対応するスピーカーの位置を示す。また、2つの位置間の幾何学的距離は2つの位置の高度偏差の絶対値と方位角偏差の絶対値を合算した値と定義されることができる。
一方、本発明の他の実施形態によれば、BRIRパラメータ化部300は、受信されたBRIRフィルタ係数の全体を変換および編集してバイノーラルレンダリングユニット220に伝達することができる。この時、入力信号の各チャネルまたは各オブジェクトに対応するBRIRフィルタ係数(または、編集されたBRIRフィルタ係数)の選択過程は、バイノーラルレンダリングユニット220で行われることができる。
仮に、BRIRパラメータ化部300がバイノーラルレンダリングユニット220とは別途の装置で構成される場合、BRIRパラメータ化部300で生成されたバイノーラルレンダリングパラメータはビットストリームでレンダリングユニット220に送信されることができる。バイノーラルレンダリングユニット220は、受信されたビットストリームを復号化してバイノーラルレンダリングパラメータを得ることができる。この時、送信されるバイノーラルレンダリングパラメータはバイノーラルレンダリングユニット220の各サブユニットにおけるプロセッシングのために必要な各種パラメータを含み、変換および編集されたBRIRフィルタ係数、または原本BRIRフィルタ係数などを含むことができる。
バイノーラルレンダリングユニット220は高速コンボリューション部230、後期残響生成部240およびQTDLプロセッシング部250を含み、マルチチャネルおよび/またはマルチオブジェクト信号を含むマルチオーディオ信号を受信する。本明細書では、マルチチャネルおよび/またはマルチオブジェクト信号を含む入力信号をマルチオーディオ信号と称することにする。図2では一実施形態によりバイノーラルレンダリングユニット220がQMFドメインのマルチチャネル信号を受信するものとして示されているが、バイノーラルレンダリングユニット220の入力信号には時間ドメインマルチチャネル信号およびマルチオブジェクト信号などが含まれることができる。また、バイノーラルレンダリングユニット220が別途のデコーダをさらに含む場合、前記入力信号は前記マルチオーディオ信号の符号化されたビットストリームであってもよい。それに加え、本明細書ではマルチオーディオ信号に対するBRIRレンダリングを行うケースを基準に本発明を説明するが、本発明はこれに限定されるものではない。すなわち、本発明で提供する特徴はBRIRでない他種類のレンダリングフィルタに適用されてもよく、マルチオーディオ信号でない単一チャネルまたは単一オブジェクトのオーディオ信号に対して適用されてもよい。
高速コンボリューション部230は、入力信号とBRIRフィルタ間の高速コンボリューションを行って、入力信号に対する直接音(direct sound)と初期反射音(early reflection)を処理する。このために、高速コンボリューション部230は、切断された(truncated)BRIRを用いて高速コンボリューションを行うことができる。切断されたBRIRは各サブバンド周波数に従属的に切断された複数のサブバンドフィルタ係数を含み、BRIRパラメータ化部300によって生成される。この時、各切断されたサブバンドフィルタ係数の長さは該サブバンドの周波数に従属的に決定される。高速コンボリューション部230は、サブバンドに応じて互いに異なる長さを有する切断されたサブバンドフィルタ係数を用いることによって、周波数ドメインにおける可変次数(variable order)フィルタリングを行うことができる。すなわち、各周波数バンド別にQMFドメインサブバンドオーディオ信号とそれに対応するQMFドメインの切断されたサブバンドフィルタ間の高速コンボリューションが行われることができる。本明細書において、直接音および初期反射音(Direct sound & Early reflection、D&E)パートはF(front)−パートと称することができる。
後期残響生成部240は、入力信号に対する後期残響(late reverberation)信号を生成する。後期残響信号は、高速コンボリューション部230で生成された直接音および初期反射音以後の出力信号を示す。後期残響生成部240は、BRIRパラメータ化部300から伝達された各サブバンドフィルタ係数から決定された残響時間情報に基づいて入力信号を処理することができる。本発明の実施形態によれば、後期残響生成部240は、入力オーディオ信号に対するモノまたはステレオダウンミックス信号を生成し、生成されたダウンミックス信号に対する後期残響処理を行うことができる。本明細書において、後期残響(Late Reverberation、LR)パートはP(parametric)−パートと称することができる。
QTDL(QMF domain Tapped Delay Line)プロセッシング部250は、入力オーディオ信号のうちの高周波数バンドの信号を処理する。QTDLプロセッシング部250は、高周波数バンドの各サブバンド信号に対応する少なくとも1つのパラメータをBRIRパラメータ化部300から受信し、受信されたパラメータを用いてQMFドメインにおいてタップ−ディレイラインフィルタリングを行う。本発明の実施形態によれば、バイノーラルレンダラー200は既に設定された定数または既に設定された周波数バンドに基づいて入力オーディオ信号を低周波数バンド信号と高周波数バンド信号に分離し、低周波数バンド信号は高速コンボリューション部230および後期残響生成部240において、高周波数バンド信号はQTDLプロセッシング部250において各々処理することができる。
高速コンボリューション部230、後期残響生成部240およびQTDLプロセッシング部250は、各々2チャネルのQMFドメインサブバンド信号を出力する。ミキサー&コンバイナ260は、高速コンボリューション部230の出力信号、後期残響生成部240の出力信号、およびQTDLプロセッシング部250の出力信号を結合してミキシングを行う。この時、出力信号の結合は、2チャネルの左、右出力信号に対して各々別途に行われる。バイノーラルレンダラー200は、結合された出力信号をQMF合成して時間ドメインの最終出力オーディオ信号を生成する。
以下、各図面を参照して図2の高速コンボリューション部230、後期残響生成部240、QTDLプロセッシング部250、およびこれらの組み合わせに対する様々な実施形態を具体的に説明する。
図3〜図7は、本発明によるオーディオ信号処理装置の様々な実施形態を示している。本発明において、オーディオ信号処理装置は、狭義の意味としては、図2に示されたバイノーラルレンダラー200またはバイノーラルレンダリングユニット220を指し示すことができる。しかし、本発明において、オーディオ信号処理装置は、広義の意味としては、バイノーラルレンダラーを含む図1のオーディオ信号デコーダを指し示すことができる。図3〜図7に示された各バイノーラルレンダラーは、説明の便宜のため、図2に示されたバイノーラルレンダラー200の一部構成だけを示すことができる。また、以下、本明細書ではマルチチャネル入力信号に対する実施形態を主に記述するが、別途の言及がない場合、チャネル、マルチチャネルおよびマルチチャネル入力信号は各々オブジェクト、マルチオブジェクトおよびマルチオブジェクト入力信号を含む概念として用いられることができる。それのみならず、マルチチャネル入力信号は、HOA復号およびレンダリングされた信号を含む概念として用いられることもできる。
図3は、本発明の一実施形態によるバイノーラルレンダラー200Aを示している。BRIRを用いたバイノーラルレンダリングを一般化すれば、M個のチャネルを有するマルチチャネルの入力信号に対して0個の出力信号を得るためのM−to−0プロセッシングである。バイノーラルフィルタリングは、この過程で各々の入力チャネルと出力チャネルに対応するフィルタ係数を用いたフィルタリングとみなすことができる。図3において、原本フィルタセットHは、各チャネル信号のスピーカ位置から左、右の耳の位置までの伝達関数を意味する。このような伝達関数中、一般的な聴音空間、すなわち、残響がある空間で測定したものをBinaural Room Impulse Response(BRIR)と呼ぶ。その反面、再生空間の影響がないように無響室で測定したものをHead Related Impulse Response(HRIR)といい、それに対する伝達関数をHead Related Transfer Function(HRTF)と呼ぶ。よって、BRIRは、HRTFとは異なり、方向情報だけでなく、再生空間の情報を共に含んでいる。一実施形態によれば、HRTFと人工残響器(artificial reverberator)を用いてBRIRを代えることもできる。本明細書ではBRIRを用いたバイノーラルレンダリングについて説明するが、本発明はこれに限定されず、HRIR、HRTFを含む様々な形態のFIRフィルタを用いたバイノーラルレンダリングにも同一または相応する方法により適用可能である。また、本発明は、オーディオ信号のバイノーラルレンダリングだけでなく、入力信号の様々な形態のフィルタリング演算時にも適用可能である。一方、BRIRは前述したように96K個のサンプル長さを有することができ、マルチチャネルバイノーラルレンダリングはM*0個の互いに異なるフィルタを用いて行われるので高演算量の処理過程が要求される。
本発明の実施形態によれば、BRIRパラメータ化部300は、演算量の最適化のために原本フィルタセットHから変形されたフィルタ係数を生成することができる。BRIRパラメータ化部300は、原本フィルタ係数をF(front)−パート係数とP(parametric)−パート係数に分離する。ここで、F−パートは直接音および初期反射音(D&E)パートを示し、P−パートは後期残響(LR)パートを示す。例えば、96Kサンプル長さを有する原本フィルタ係数は前の4Kサンプルまでだけを切断したF−パートと、残りの92Kサンプルに対応する部分であるP−パートに各々分離することができる。
バイノーラルレンダリングユニット220は、BRIRパラメータ化部300からF−パート係数およびP−パート係数を各々受信し、それを用いてマルチチャネル入力信号をレンダリングする。本発明の実施形態によれば、図2に示された高速コンボリューション部230はBRIRパラメータ化部300から受信されたF−パート係数を用いてマルチオーディオ信号をレンダリングし、後期残響生成部240はBRIRパラメータ化部300から受信されたP−パート係数を用いてマルチオーディオ信号をレンダリングすることができる。すなわち、高速コンボリューション部230と後期残響生成部240は、各々、本発明のF−パートレンダリング部とP−パートレンダリング部に対応する。一実施形態によれば、F−パートレンダリング(F−パート係数を用いたバイノーラルレンダリング)は通常のFIR(Finite Impulse Response)フィルタで実現され、P−パートレンダリング(P−パート係数を用いたバイノーラルレンダリング)はパラメトリックな方法で実現されることができる。一方、ユーザーまたは制御システムによって提供される複雑度−クォリティー制御入力は、F−パートおよび/またはP−パートに生成される情報を決定するのに用いられることができる。
図4は、本発明の他の実施形態によるバイノーラルレンダラー200Bであり、F−パートレンダリングを実現するより詳細な方法を示している。説明の便宜のため、図4ではP−パートレンダリング部は省略した。また、図4ではQMFドメインで実現されたフィルタを示しているが、本発明はこれに限定されず、他ドメインのサブバンドプロセッシングに全て適用可能である。
図4を参照すれば、F−パートレンダリングは、QMFドメイン上で高速コンボリューション部230によって行われることができる。QMFドメイン上におけるレンダリングのために、QMF分析部222は、時間ドメイン入力信号x0、x1、…x_M−1をQMFドメイン信号X0、X1、…X_M−1に変換する。この時、入力信号x0、x1、…x_M−1はマルチチャネルオーディオ信号、例えば、22.2チャネルスピーカに対応するチャネル信号であってもよい。QMFドメインは全64個のサブバンドを用いることができるが、本発明はこれに限定されるものではない。一方、本発明の一実施形態によれば、QMF分析部222は、バイノーラルレンダラー200Bにおいて省略されてもよい。SBR(Spectral Band Replication)を用いるHE−AACやUSACの場合、QMFドメインにおいてプロセッシングを行うため、バイノーラルレンダラー200Bは、QMF分析なしで直ちにQMFドメイン信号X0、X1、…X_M−1を入力として受信することができる。よって、このようにQMFドメイン信号を直接入力として受信する場合、本発明によるバイノーラルレンダラーにおいて用いるQMFは、以前処理部(例えば、SBR)において用いるQMFと同一であることを特徴とする。QMF合成部244は、バイノーラルレンダリングが行われた2チャネルの左、右信号Y_L、Y_RをQMF合成して時間ドメインの2チャネル出力オーディオ信号yL、yRを生成する。
図5〜図7は、各々、F−パートレンダリングとP−パートレンダリングを共に行うバイノーラルレンダラー200C,200D,200Eの実施形態を示している。図5〜図7の実施形態において、F−パートレンダリングはQMFドメイン上で高速コンボリューション部230によって行われ、P−パートレンダリングはQMFドメインまたは時間ドメイン上で後期残響生成部240によって行われる。図5〜図7の実施形態において、以前の図面の実施形態と重複する部分については具体的な説明は省略する。
図5を参照すれば、バイノーラルレンダラー200Cは、F−パートレンダリングおよびP−パートレンダリングを全てQMFドメインにおいて行うことができる。すなわち、バイノーラルレンダラー200CのQMF分析部222は、時間ドメイン入力信号x0、x1、…x_M−1をQMFドメイン信号X0、X1、…X_M−1に変換して、各々、高速コンボリューション部230および後期残響生成部240に伝達する。高速コンボリューション部230および後期残響生成部240は、QMFドメイン信号X0、X1、…X_M−1をレンダリングして、各々、2チャネルの出力信号Y_L、Y_RおよびY_Lp、Y_Rpを生成する。この時、高速コンボリューション部230および後期残響生成部240は、BRIRパラメータ化部300によって受信したF−パートフィルタ係数およびP−パートフィルタ係数を各々用いてレンダリングを行うことができる。F−パートレンダリングの出力信号Y_L、Y_RとP−パートレンダリングの出力信号Y_Lp、Y_Rpは、ミキサー&コンバイナ260において左、右チャネル別に結合されてQMF合成部224に伝達される。QMF合成部224は、入力された2チャネルの左、右信号をQMF合成して時間ドメインの2チャネル出力オーディオ信号yL、yRを生成する。
図6を参照すれば、バイノーラルレンダラー200Dは、QMFドメインにおいてF−パートレンダリングを、時間ドメインにおいてP−パートレンダリングを各々行うことができる。バイノーラルレンダラー200DのQMF分析部222は、時間ドメイン入力信号をQMF変換して高速コンボリューション部230に伝達する。高速コンボリューション部230は、QMFドメイン信号をF−パートレンダリングして2チャネルの出力信号Y_L、Y_Rを生成する。QMF合成部224は、F−パートレンダリングの出力信号を時間ドメイン出力信号に変換してミキサー&コンバイナ260に伝達する。一方、後期残響生成部240は、時間ドメイン入力信号を直接受信してP−パートレンダリングを行う。P−パートレンダリングの出力信号yLp、yRpはミキサー&コンバイナ260に伝達される。ミキサー&コンバイナ260は、時間ドメイン上でF−パートレンダリング出力信号およびP−パートレンダリング出力信号を各々結合して時間ドメインの2チャネル出力オーディオ信号yL、yRを生成する。
図5と図6の実施形態では、F−パートレンダリングおよびP−パートレンダリングが各々並列(parallel)に行われる反面、図7の実施形態によれば、バイノーラルレンダラー200EはF−パートレンダリングとP−パートレンダリングを各々順次(sequential)に行うことができる。すなわち、高速コンボリューション部230はQMF変換された入力信号をF−パートレンダリングし、F−パートレンダリングされた2チャネル信号Y_L、Y_RはQMF合成部224において時間ドメイン信号に変換された後に後期残響生成部240に伝達される。後期残響生成部240は、入力された2チャネル信号に対するP−パートレンダリングを行って、時間ドメインの2チャネル出力オーディオ信号yL、yRを生成する。
図5〜図7は各々F−パートレンダリングとP−パートレンダリングを行う一実施形態を示すものであり、各図面の実施形態を組み合わせまたは変形してバイノーラルレンダリングを行うことができる。例えば、各実施形態において、バイノーラルレンダラーは入力されたマルチオーディオ信号の各々に対して個別的にP−パートレンダリングを行うこともできるが、入力信号を2チャネルの左、右信号またはモノ信号にダウンミックスした後にダウンミックス信号に対するP−パートレンダリングを行うこともできる。
<周波数ドメイン可変次数フィルタリング(Variable Order Filtering in Frequency−domain、VOFF)>
図8〜図10は、本発明の実施形態によるバイノーラルレンダリングのためのFIRフィルタ生成方法を示している。本発明の実施形態によれば、QMFドメインにおけるバイノーラルレンダリングのために、QMFドメインの複数のサブバンドフィルタに変換されたFIRフィルタが用いられることができる。この時、F−パートレンダリングには、各サブバンド周波数に従属的に切断されたサブバンドフィルタが用いられることができる。すなわち、バイノーラルレンダラーの高速コンボリューション部は、サブバンドに応じて互いに異なる長さを有する切断されたサブバンドフィルタを用いることによって、QMFドメインにおける可変次数フィルタリングを行うことができる。以下で説明する図8〜図10のフィルタ生成の実施形態は図2のBRIRパラメータ化部300によって行われることができる。
図8は、バイノーラルレンダリングに用いられるQMFドメインフィルタの各QMFバンドに応じた長さの一実施形態を示している。図8の実施形態において、FIRフィルタはK個のQMFサブバンドフィルタに変換され、FkはQMFサブバンドkの切断されたサブバンドフィルタを示す。QMFドメインは全64個のサブバンドを用いることができるが、本発明はこれに限定されるものではない。また、Nは原本サブバンドフィルタの長さ(タップ数)を示し、切断されたサブバンドフィルタの長さは各々N1、N2、N3で示す。この時、長さN、N1、N2およびN3はダウンサンプルされたQMFドメインにおけるタップ数を示す。
本発明の実施形態によれば、各サブバンドに応じて互いに異なる長さ(N1、N2、N3)を有する切断されたサブバンドフィルタがF−パートレンダリングに用いられることができる。この時、切断されたサブバンドフィルタは原本サブバンドフィルタにおいて切断された前部(front)のフィルタであり、フロントサブバンドフィルタと称することができる。また、原本サブバンドフィルタの切断以後の後部(rear)はリヤサブバンドフィルタと称することができ、P−パートレンダリングに用いられることができる。
BRIRフィルタを用いたレンダリングの場合、各サブバンド別のフィルタ次数(すなわち、フィルタ長さ)は、原本BRIRフィルタから抽出されたパラメータ、例えば、各サブバンドフィルタ別の残響時間(Reverberation Time、RT)情報、EDC(Energy Decay Curve)値、エネルギー減衰時間情報などに基づいて決定されることができる。各周波数別に空気中での減衰、壁および天井の材質に応じた吸音程度が異なる音響的な特性により、残響時間は周波数に応じて互いに異なりうる。一般的には、低周波数の信号であるほど残響時間が長いという特性を有する。残響時間が長ければ、FIRフィルタの後部に多くの情報が残っていることを意味するため、該フィルタを長く切断して用いることが残響情報を正しく伝達するのに好ましい。よって、本発明の各切断されたサブバンドフィルタの長さは、該サブバンドフィルタから抽出された特性情報(例えば、残響時間情報)に少なくとも部分的に基づいて決定される。
切断されたサブバンドフィルタの長さは様々な実施形態に応じて決定されることができる。先ず、一実施形態によれば、各サブバンドは複数のグループに分類され、分類されたグループに応じて各切断されたサブバンドフィルタの長さが決定されることができる。図8の例示によれば、各サブバンドは3つの区域(Zone 1、Zone 2、Zone 3)に分類されることができ、低周波数に該当するZone 1の切断されたサブバンドフィルタは高周波数に該当するZone 2およびZone 3の切断されたサブバンドフィルタより長いフィルタ次数(すなわち、フィルタ長さ)を有することができる。また、高周波数の区域に行くほど、該当区域の切断されたサブバンドフィルタのフィルタ次数は次第に減る。
本発明の他の実施形態によれば、各切断されたサブバンドフィルタの長さは、原本サブバンドフィルタの特性情報に応じて各サブバンド別に独立におよび可変的に決定されることができる。各切断されたサブバンドフィルタの長さは該サブバンドで決定された切断長さに基づいて決定され、隣り合うまたは他サブバンドの切断されたサブバンドフィルタの長さに影響を受けない。例えば、Zone 2の一部あるいは全部の切断されたサブバンドフィルタの長さがZone 1の少なくとも1つの切断されたサブバンドフィルタの長さより長くてもよい。
本発明のまた他の実施形態によれば、複数のグループに分類されたサブバンドのうち一部に対してのみ周波数ドメイン可変次数フィルタリングが行われることができる。すなわち、分類された少なくとも2個のグループのうち一部のグループに属したサブバンドに対してのみ互いに異なる長さを有する切断されたサブバンドフィルタが生成されることができる。一実施形態によれば、切断されたサブバンドフィルタが生成されるグループは、既に設定された定数または既に設定された周波数バンドに基づいて低周波数バンドに分類されたサブバンドグループ(例えば、Zone 1)であってもよい。例えば、原本BRIRフィルタのサンプリング周波数が48kHzである時、原本BRIRフィルタは全64個のQMFサブバンドフィルタに変換されることができる(K=64)。この時、全体0〜24kHzバンドの半分である0〜12kHzバンドに該当するサブバンド、すなわち、低周波数バンド順に0から31のインデックスを有する全32個のサブバンドに対してのみ切断されたサブバンドフィルタが生成されることができる。この時、本発明の実施形態によれば、インデックス0であるサブバンドの切断されたサブバンドフィルタの長さは、インデックス31であるサブバンドの切断されたサブバンドフィルタの長さより長いことを特徴とする。
切断されたフィルタの長さは、オーディオ信号処理装置が取得した追加的な情報、例えば、デコーダの複雑度(complexity)、複雑度レベル(プロファイル)、または要求されるクォリティー情報に基づいて決定されることができる。複雑度はオーディオ信号処理装置のハードウェアリソース(resource)に応じて決定されるか、またはユーザーが直接入力した値に応じて決定されることができる。クォリティーはユーザーの要求に応じて決定されるか、またはビットストリームを通じて送信された値またはビットストリームに含まれた他の情報を参照して決定されることができる。また、クォリティーは送信されるオーディオ信号の品質を推定した値に応じて決定されることもでき、例えば、ビットレートが高いほど、より高いクォリティーとみなすことができる。この時、各切断されたサブバンドフィルタの長さは複雑度およびクォリティーに応じて比例的に増加してもよく、各バンド別に互いに異なる比率で変化してもよい。また、各切断されたサブバンドフィルタの長さは、後述するFFTなどの高速プロセッシングによる追加的な利得を得るために、それに対応する大きさ単位、例えば、2の累乗の倍数に決定されることができる。その反面、切断されたサブバンドフィルタの決定された長さが実際のサブバンドフィルタの全長より長い場合、切断されたサブバンドフィルタの長さは実際のサブバンドフィルタの長さに調整されることができる。
BRIRパラメータ化部は、前述した実施形態に応じて決定された各切断されたサブバンドフィルタに対応する切断されたサブバンドフィルタ係数(F−パート係数)を生成し、それを高速コンボリューション部に伝達する。高速コンボリューション部は、切断されたサブバンドフィルタ係数を用いて、マルチオーディオ信号の各サブバンド信号に対する周波数ドメイン可変次数フィルタリングを行う。すなわち、互いに異なる周波数バンドである第1サブバンドと第2サブバンドに対し、高速コンボリューション部は、第1サブバンド信号に第1の切断されたサブバンドフィルタ係数を適用して第1サブバンドバイノーラル信号を生成し、第2サブバンド信号に第2の切断されたサブバンドフィルタ係数を適用して第2サブバンドバイノーラル信号を生成する。この時、第1の切断されたサブバンドフィルタ係数と第2の切断されたサブバンドフィルタ係数は互いに異なる長さを有してもよく、同一な時間領域を有する原型フィルタ(プロトタイプフィルタ)から得られてもよい。
図9は、バイノーラルレンダリングに用いられるQMFドメインフィルタの各QMFバンド別の長さの他の実施形態を示している。図9の実施形態において、図8の実施形態と同一または相応する部分については重複的な説明は省略する。
図9の実施形態において、FkはQMFサブバンドkのF−パートレンダリングに用いられる切断されたサブバンドフィルタ(フロントサブバンドフィルタ)を示し、PkはQMFサブバンドkのP−パートレンダリングに用いられるリヤサブバンドフィルタを示す。Nは原本サブバンドフィルタの長さ(タップ数)を示し、NkFおよびNkPは各々サブバンドkのフロントサブバンドフィルタおよびリヤサブバンドフィルタの長さを示す。前述したように、NkFおよびNkPはダウンサンプルされたQMFドメインにおけるタップ数を示す。
図9の実施形態によれば、フロントサブバンドフィルタだけでなくリヤサブバンドフィルタの長さも原本サブバンドフィルタから抽出されたパラメータに基づいて決定されることができる。すなわち、各サブバンドのフロントサブバンドフィルタおよびリヤサブバンドフィルタの長さは、該サブバンドフィルタから抽出された特性情報に少なくとも部分的に基づいて決定される。例えば、フロントサブバンドフィルタの長さは該サブバンドフィルタの第1残響時間情報に基づいて、リヤサブバンドフィルタの長さは第2残響時間情報に基づいて決定されることができる。すなわち、フロントサブバンドフィルタは原本サブバンドフィルタにおいて第1残響時間情報に基づいて切断された前部のフィルタであり、リヤサブバンドフィルタはフロントサブバンドフィルタ以後の区間として第1残響時間と第2残響時間との間の区間に対応する後部のフィルタである。一実施形態によれば、第1残響時間情報はRT20、第2残響時間情報はRT60であることができるが、本発明はこれに限定されるものではない。
第2残響時間以内には、初期反射音パートから後期残響パートに転換される部分が存在する。すなわち、決定性(deterministic characteristic)を有する区間から推計的特性(stochastic characteristic)を有する区間に転換される地点が存在し、全体バンドのBRIRの観点でこの地点をミキシングタイムと呼ぶ。ミキシングタイム以前の区間の場合、各位置別に方向性を提供する情報が主に存在し、これはチャネル別に固有である。その反面、後期残響パートの場合、チャネル別に共通した特徴を有するため、複数のチャネルを一度に処理することが効率的である。よって、サブバンド別のミキシングタイムを推定して、ミキシングタイム以前に対してはF−パートレンダリングによって高速コンボリューションを行い、ミキシングタイム以後に対してはP−パートレンダリングによって各チャネル別の共通した特性が反映されたプロセッシングを行うことができる。
しかし、ミキシングタイムを推定することは知覚的(perceptual)な観点で偏向(bias)によるエラーが発生しうる。よって、正確なミキシングタイムを推定して該当境界を基準にF−パートとP−パートに分けて処理することよりは、F−パートの長さを最大限長くして高速コンボリューションを行うことがクォリティーの観点では優れる。よって、F−パートの長さ、すなわち、フロントサブバンドフィルタの長さは、複雑度−クォリティー制御に応じてミキシングタイムに該当する長さより長いかまたは短くなってもよい。
それに加え、各サブバンドフィルタの長さを減らすために、前述したように切断する方法の他にも、特定サブバンドの周波数応答が単調な(monotonic)場合、該サブバンドのフィルタを低い次数に減少させるモデリングが可能である。代表的な方法としては周波数サンプリングを用いたFIRフィルタモデリングがあり、最小二乗の観点で最小化されるフィルタをデザインすることができる。
本発明の実施形態によれば、各サブバンド別のフロントサブバンドフィルタおよび/またはリヤサブバンドフィルタの長さは、該サブバンドの各チャネルに対して同一の値を有することができる。BRIRには測定上のエラーが存在し、残響時間を推定するにも偏向などの誤差要素が存在する。よって、このような影響を減らすために、チャネル間またはサブバンド間の相互関係に基づいてフィルタの長さが決定されることができる。一実施形態によれば、BRIRパラメータ化部は、同一のサブバンドの各チャネルに対応するサブバンドフィルタから各々第1特性情報(例えば、第1残響時間情報)を抽出し、抽出された第1特性情報を組み合わせて該サブバンドに対する1つのフィルタ次数情報(または、第1切断地点情報)を得ることができる。該サブバンドの各チャネル別のフロントサブバンドフィルタは、前記得られたフィルタ次数情報(または、第1切断地点情報)に基づいて同一の長さを有するように決定されることができる。同様に、BRIRパラメータ化部は、同一のサブバンドの各チャネルに対応するサブバンドフィルタから各々第2特性情報(例えば、第2残響時間情報)を抽出し、抽出された第2特性情報を組み合わせて該サブバンドの各チャネルに対応するリヤサブバンドフィルタに共通に適用される第2切断地点情報を得ることができる。ここで、フロントサブバンドフィルタは原本サブバンドフィルタにおいて第1切断地点情報に基づいて切断された前部のフィルタであり、リヤサブバンドフィルタはフロントサブバンドフィルタ以後の区間として第1切断地点と第2切断地点との間の区間に対応する後部のフィルタである。
一方、本発明の他の実施形態によれば、特定サブバンドグループのサブバンドに対してはF−パートプロセッシングのみ行われることができる。この時、該サブバンドに対して第1切断地点までのフィルタだけを用いてプロセッシングが行われれば、全体サブバンドフィルタを用いてプロセッシングが行われる時に比べて、処理されるフィルタのエネルギー差によってユーザが知覚できる水準の歪みが発生しうる。このような歪みを防止するために、該サブバンドフィルタにおいてプロセッシングに用いられない領域、すなわち、第1切断地点以後の領域に対するエネルギー補償が行われることができる。前記エネルギー補償は、F−パート係数(フロントサブバンドフィルタ係数)に該サブバンドフィルタの第1切断地点までのフィルタパワーを分け、所望の領域のエネルギー、例えば、該サブバンドフィルタの全体パワーを乗ずることによって実行可能である。よって、F−パート係数のエネルギーが全体サブバンドフィルタのエネルギーと同一になるように調整されることができる。また、BRIRパラメータ化部からP−パート係数が送信されたにもかかわらず、バイノーラルレンダリングユニットでは複雑度−クォリティー制御に基づいてP−パートプロセッシング行わなくてもよい。この場合、バイノーラルレンダリングユニットは、P−パート係数を用いてF−パート係数に対する前記エネルギー補償を行うことができる。
前述した方法によるF−パートプロセッシングにおいて、各サブバンド別に異なる長さを有する切断されたサブバンドフィルタのフィルタ係数は、1つの時間領域フィルタ(すなわち、proto−typeフィルタ)から得られる。すなわち、1つの時間領域フィルタを複数のQMFサブバンドフィルタに変換し、各サブバンドに対応するフィルタの長さを可変させたものであるため、各切断されたサブバンドフィルタは1つの原型フィルタから得られたものである。
BRIRパラメータ化部は、前述した実施形態に応じて決定された各フロントサブバンドフィルタに対応するフロントサブバンドフィルタ係数(F−パート係数)を生成し、それを高速コンボリューション部に伝達する。高速コンボリューション部は、受信されたフロントサブバンドフィルタ係数を用いて、マルチオーディオ信号の各サブバンド信号に対する周波数ドメイン可変次数フィルタリングを行う。すなわち、互いに異なる周波数バンドである第1サブバンドと第2サブバンドに対し、高速コンボリューション部は、第1サブバンド信号に第1フロントサブバンドフィルタ係数を適用して第1サブバンドバイノーラル信号を生成し、第2サブバンド信号に第2フロントサブバンドフィルタ係数を適用して第2サブバンドバイノーラル信号を生成する。この時、第1フロントサブバンドフィルタ係数と第2フロントサブバンドフィルタ係数は互いに異なる長さを有することができ、同一の時間領域を有する原型フィルタ(プロトタイプフィルタ)から得られる。また、BRIRパラメータ化部は、前述した実施形態に応じて決定された各リヤサブバンドフィルタに対応するリヤサブバンドフィルタ係数(P−パート係数)を生成し、それを後期残響生成部に伝達することができる。後期残響生成部は、受信されたリヤサブバンドフィルタ係数を用いて、各サブバンド信号に対する残響処理を行うことができる。本発明の実施形態によれば、BRIRパラメータ化部は、各チャネル別のリヤサブバンドフィルタ係数を組み合わせてダウンミックスサブバンドフィルタ係数(ダウンミックスP−パート係数)を生成し、それを後期残響生成部に伝達することができる。後述するように、後期残響生成部は、受信されたダウンミックスサブバンドフィルタ係数を用いて2チャネルの左、右サブバンド残響信号を生成することができる。
図10は、バイノーラルレンダリングに用いられるFIRフィルタ生成方法のまた他の実施形態を示している。図10の実施形態において、図8および図9の実施形態と同一または相応する部分については重複的な説明は省略する。
図10を参照すれば、QMF変換された複数のサブバンドフィルタは複数のグループに分類され、分類された各グループ別に互いに異なるプロセッシングが適用されることができる。例えば、複数のサブバンドは、既に設定された周波数バンド(QMFバンドi)を基準にした低周波数の第1サブバンドグループ(Zone 1)と、高周波数の第2サブバンドグループ(Zone 2)に分類されることができる。この時、第1サブバンドグループの入力サブバンド信号に対してはF−パートレンダリングが、第2サブバンドグループの入力サブバンド信号に対しては後述するQTDLプロセッシングが行われることができる。
よって、BRIRパラメータ化部は、第1サブバンドグループの各サブバンド別にフロントサブバンドフィルタ係数を生成し、それを高速コンボリューション部に伝達する。高速コンボリューション部は、受信されたフロントサブバンドフィルタ係数を用いて第1サブバンドグループのサブバンド信号に対するF−パートレンダリングを行う。実施形態により、第1サブバンドグループのサブバンド信号に対するP−パートレンダリングが後期残響生成部によってさらに行われることもできる。また、BRIRパラメータ化部は、第2サブバンドグループの各サブバンドフィルタ係数から少なくとも1つのパラメータを取得し、それをQTDLプロセッシング部に伝達する。QTDLプロセッシング部は、得られたパラメータを用いて、後述するように第2サブバンドグループの各サブバンド信号に対するタップ−ディレイラインフィルタリングを行う。本発明の実施形態によれば、第1サブバンドグループと第2サブバンドグループを区分する既に設定された周波数(QMFバンドi)は事前に定められた定数値に基づいて決定されてもよく、送信されたオーディオ入力信号のビット列特性に応じて決定されてもよい。例えば、SBRを用いるオーディオ信号の場合、第2サブバンドグループがSBRバンドに対応するように設定されることができる。
本発明の他の実施形態によれば、複数のサブバンドは、既に設定された第1周波数バンド(QMFバンドi)および第2周波数バンド(QMFバンドj)に基づいて3個のサブバンドグループに分類されることもできる。すなわち、複数のサブバンドは、第1周波数バンドより小さいかまたは同一な低周波数区域である第1サブバンドグループ(Zone 1)、第1周波数バンドより大きく第2周波数バンドより小さいかまたは同一な中間周波数区域である第2サブバンドグループ(Zone 2)、および第2周波数バンドより大きい高周波数区域である第3サブバンドグループ(Zone 3)に分類されることができる。例えば、全64個のQMFサブバンド(サブバンドインデックス0〜63)が前記3個のサブバンドグループに分類される場合、第1サブバンドグループは0から31のインデックスを有する全32個のサブバンドを、第2サブバンドグループは32から47のインデックスを有する全16個のサブバンドを、第3サブバンドグループは残りの48から63のインデックスを有するサブバンドを含むことができる。ここで、サブバンドインデックスはサブバンド周波数が低いほど低い値を有する。
本発明の実施形態によれば、第1サブバンドグループと第2サブバンドグループのサブバンド信号に対してのみバイノーラルレンダリングが行われることができる。すなわち、第1サブバンドグループのサブバンド信号に対しては前述したようにF−パートレンダリングおよびP−パートレンダリングが行われ、第2サブバンドグループのサブバンド信号に対してはQTDLプロセッシングが行われることができる。また、第3サブバンドグループのサブバンド信号に対してはバイノーラルレンダリングが行われなくてもよい。一方、バイノーラルレンダリングを行う最大周波数バンドの情報(Kproc=48)およびコンボリューションを行う周波数バンドの情報(Kconv=32)は予め決められた値であってもよく、またはBRIRパラメータ化部によって決定されてバイノーラルレンダリングユニットに伝達されてもよい。この時、第1周波数バンド(QMFバンドi)はインデックスKconv−1のサブバンドに設定され、第2周波数バンド(QMFバンドj)はインデックスKproc−1のサブバンドに設定される。一方、最大周波数バンドの情報(Kproc)およびコンボリューションを行う周波数バンドの情報(Kconv)の値は、原本BRIR入力のサンプリング周波数、入力オーディオ信号のサンプリング周波数などによって可変しうる。
<後期残響レンダリング>
次に、図11を参照して本発明のP−パートレンダリングの様々な実施形態について説明する。すなわち、QMFドメインにおいてP−パートレンダリングを行う図2の後期残響生成部240の様々な実施形態が図11を参照して説明される。図11の実施形態において、マルチチャネル入力信号はQMFドメインのサブバンド信号として受信されると仮定する。よって、図11における後期残響生成部240の各構成のプロセッシングは各QMFサブバンド別に行われることができる。図11の実施形態において、以前の図面の実施形態と重複する部分については具体的な説明は省略する。
前述した図8〜図10の実施形態において、P−パートに対応するPk(P1、P2、P3、…)は周波数可変切断に応じて除去された各サブバンドフィルタの後部分に該当し、通常、後期残響に対する情報を含んでいる。複雑度−クォリティー制御に応じてP−パートの長さは各サブバンドフィルタの切断された地点以後の全体フィルタとして定義されてもよく、該サブバンドフィルタの第2残響時間情報を参照してより小さい長さとして定義されてもよい。
P−パートレンダリングは各チャネル別に独立に行われてもよく、ダウンミックスされたチャネルに対して行われてもよい。また、P−パートレンダリングは既に設定されたサブバンドグループ別にまたは各サブバンド別に互いに異なるプロセッシングを通じて適用されてもよく、全体サブバンドに対して同一なプロセッシングとして適用されてもよい。この時、P−パートに適用可能なプロセッシングとしては、入力信号に対するエネルギー減少の補償、タップ−ディレイラインフィルタリング、IIR(Infinite Impulse Response)フィルタを用いたプロセッシング、人工残響器(artificial reverberator)を用いたプロセッシング、FIIC(Frequency−independent Interaural Coherence)補償、FDIC(Frequency−dependent Interaural Coherence)補償などが含まれることができる。
一方、P−パートに対するパラメトリック(parametric)プロセッシングのためには、大きく2つの特徴、すなわち、EDR(Energy Decay Relief)とFDIC(Frequency−dependent Interaural Coherence)の特徴を保存することが重要である。先ず、P−パートをエネルギー観点で観察すれば、各チャネル別にEDRが同一または類似することが分かる。各チャネルが共通したEDRを有しているため、全てのチャネルを1つまたは2つのチャネルにダウンミックスした後、ダウンミックスされたチャネルに対するP−パートレンダリングを行うことはエネルギー観点で妥当である。この時、M個のチャネルに対してM回のコンボリューションを実行しなければならないP−パートレンダリングの演算を、M−to−0ダウンミックスと1回(または、2回)のコンボリューションに減らすことによって相当な演算量の利得を提供することができる。このようにダウンミックス信号にエネルギー減衰マッチングおよびFDIC補償を実行すれば、マルチチャネル入力信号に対する後期残響をより効率的に実現することができる。マルチチャネル入力信号をダウンミックスする方法としては、各チャネルが同一のゲイン値を有するように全てのチャネルを足す方法が使用できる。本発明の他の実施形態によれば、マルチチャネル入力信号の左側チャネルはステレオ左チャネルに、右側チャネルはステレオ右チャネルに割り当てて足されることができる。この時、前方および後方(0度、180度)に位置したチャネルはステレオ左チャネルと右チャネルに同一なパワー(例えば、1/sqrt(2)のゲイン値)で正規化(normalize)して分配されることができる。
図11は、本発明の一実施形態による後期残響生成部240を示している。図11の実施形態によれば、後期残響生成部240は、ダウンミックス部241、エネルギー減衰マッチング部242、デコリレータ243およびICマッチング部244を含むことができる。また、後期残響生成部240のプロセッシングのために、BRIRパラメータ化部のP−パートパラメータ化部360は、ダウンミックスサブバンドフィルタ係数およびIC値を生成してバイノーラルレンダリングユニットに伝達する。
先ず、ダウンミックス部241は、マルチチャネル入力信号X0、X1、…、X_M−1を各サブバンド別にダウンミックスしてモノダウンミックス信号(すなわち、モノサブバンド信号)X_DMXを生成する。エネルギー減衰マッチング部242は、生成されたモノダウンミックス信号に対するエネルギー減衰を反映する。この時、エネルギー減衰を反映するために、各サブバンドに対するダウンミックスサブバンドフィルタ係数が用いられることができる。ダウンミックスサブバンドフィルタ係数はP−パートパラメータ化部360から得られ、該サブバンドの各チャネル別のリヤサブバンドフィルタ係数の組み合わせによって生成される。例えば、ダウンミックスサブバンドフィルタ係数は、該サブバンドに対して各チャネル別のリヤサブバンドフィルタ係数の二乗振幅応答の平均にルートを取って得られる。よって、ダウンミックスサブバンドフィルタ係数は該サブバンド信号に対する後期残響パートのエネルギー減少特性を反映する。ダウンミックスサブバンドフィルタ係数は実施形態によってモノまたはステレオにダウンミックスされたサブバンドフィルタ係数を含むことができ、P−パートパラメータ化部360から直接受信されるか、またはメモリ225に既に格納された値から得ることができる。
次に、デコリレータ243は、エネルギー減衰が反映されたモノダウンミックス信号の非相関信号D_DMXを生成する。デコリレータ243は両耳間のコヒーレンス(coherence)を調整するための一種の前処理器であって、位相ランダマイザ(phase randomizer)が用いられてもよく、演算量の効率のために90度単位で入力信号の位相を変えてもよい。
(複号同順)
<高周波数バンドのQTDLプロセッシング>
次に、図12および図13を参照して本発明のQTDLプロセッシングの様々な実施形態について説明する。すなわち、QMFドメインにおいてQTDLプロセッシングを行う図2のQTDLプロセッシング部250の様々な実施形態が図12および図13を参照して説明される。図12および図13の実施形態において、マルチチャネル入力信号はQMFドメインのサブバンド信号として受信されると仮定する。よって、図12および図13の実施形態において、タップ−ディレイラインフィルタおよびワン−タップ−ディレイラインフィルタは各QMFサブバンド別にプロセッシングを行うことができる。また、QTDLプロセッシングは、前述したように既に設定された定数または既に設定された周波数バンドに基づいて分類された高周波数バンドの入力信号に対してのみ行われることができる。仮に、入力オーディオ信号にSBR(Spectral Band Replication)が適用された場合、前記高周波数バンドはSBRバンドに対応する。図12および図13の実施形態において、以前の図面の実施形態と重複する部分については具体的な説明は省略する。
高周波数帯域の効率的な符号化のために用いられるSBR(Spectral Band Replication)は、低ビット率の符号化時に高周波数帯域の信号を捨てることによって狭くなったバンド幅を再び拡張して、原信号程度のバンド幅を確保するための道具である。この時、高周波数帯域は符号化されて送信される低周波数帯域の情報とエンコーダによって送信した高周波数帯域信号の付加情報を活用して生成される。しかし、SBRを用いて生成された高周波数成分は不正確な高調波(harmonic)の生成によって歪みが発生しうる。また、SBRバンドは高周波数帯域であり、前述したように該周波数帯域の残響時間は非常に短い。すなわち、SBRバンドのBRIRサブバンドフィルタは有効情報が少なく、速い減衰率を有する。よって、SBR帯域に準ずる高周波数帯域に対するBRIRレンダリングは、コンボリューションを行うことよりは有効な少数のタップを用いてレンダリングを行うことが音質のクォリティーに対比して演算量の側面で非常に効果的である。
図12は、本発明の一実施形態によるQTDLプロセッシング部250Aを示している。図12の実施形態によれば、QTDLプロセッシング部250Aは、タップ−ディレイラインフィルタを用いて、マルチチャネル入力信号X0、X1、…、X_M−1に対するサブバンド別のフィルタリングを行う。タップ−ディレイラインフィルタは、各チャネル信号に対して既に設定された少数のタップだけコンボリューションを行う。この時に用いられる少数のタップは、該サブバンド信号に対応するBRIRサブバンドフィルタ係数から直接抽出されたパラメータに基づいて決定されることができる。前記パラメータは、タップ−ディレイラインフィルタに用いられる各タップに対するディレイ(delay)情報およびそれに対応するゲイン(gain)情報を含む。
タップ−ディレイラインフィルタに用いられるタップ数は、複雑度−クォリティー制御に応じて決定されることができる。QTDLプロセッシング部250Aは、既に決められたタップ数に基づいて、各チャネルおよびサブバンド別に該タップ数に対応するパラメータ(ゲイン情報、ディレイ情報)セットをBRIRパラメータ化部から受信する。この時、受信されるパラメータセットは該サブバンド信号に対応するBRIRサブバンドフィルタ係数から抽出され、様々な実施形態に応じて決定されることができる。例えば、該BRIRサブバンドフィルタ係数の複数のピークのうち絶対値の大きさ順、実数値の大きさ順、または虚数値の大きさ順に前記既に決められたタップ数だけ抽出されたピークの各々に対するパラメータのセットが受信されることができる。この時、各パラメータのディレイ情報は該ピークの位置情報を示し、QMFドメインにおいてサンプル単位の整数値を有する。また、ゲイン情報は、該BRIRサブバンドフィルタ係数の全体パワー、該ディレイ情報に対応するピークの大きさに基づいて決定される。この時、ゲイン情報は、サブバンドフィルタ係数における該ピーク値そのものが用いられてもよいが、全体サブバンドフィルタ係数に対するエネルギー補償が行われた後の該ピークの加重値が用いられてもよい。前記ゲイン情報は、該ピークに対する実数加重値および虚数加重値を共に用いて得られ、よって複素数値を有する。
タップ−ディレイラインフィルタによってフィルタリングされた複数のチャネル信号は、各サブバンド別に2チャネルの左、右出力信号Y_L、Y_Rで合算される。一方、QTDLプロセッシング部250Aの各タップ−ディレイラインフィルタで用いられるパラメータはバイノーラルレンダリングの初期化過程でメモリに格納されることができ、パラメータの抽出のための追加的な演算なしでQTDLプロセッシングが行われることができる。
図13は、本発明の他の実施形態によるQTDLプロセッシング部250Bを示している。図13の実施形態によれば、QTDLプロセッシング部250Bは、ワン−タップ−ディレイラインフィルタを用いて、マルチチャネル入力信号X0、X1、…、X_M−1に対するサブバンド別のフィルタリングを行う。ワン−タップ−ディレイラインフィルタは、各チャネル信号に対して1個のタップにおいてのみコンボリューションを行うものとして理解することができる。この時に用いられるタップは、該サブバンド信号に対応するBRIRサブバンドフィルタ係数から直接抽出されたパラメータに基づいて決定されることができる。前記パラメータは、前述したようにBRIRサブバンドフィルタ係数から抽出されたディレイ情報およびそれに対応するゲイン情報を含む。
図13において、L_0、L_1、…L_M−1は各々M個のチャネルから左耳へのBRIRに対するディレイを示し、R_0、R_1、…、R_M−1は各々M個のチャネルから右耳へのBRIRに対するディレイを示す。この時、ディレイ情報は、該BRIRサブバンドフィルタ係数のうちの絶対値の大きさ順、実数値の大きさ順、または虚数値の大きさ順に最大ピークに対する位置情報を示す。また、図13において、G_L_0、G_L_1、…、G_L_M−1は左チャネルの各ディレイ情報に対応するゲインを示し、G_R_0、G_R_1、…、G_R_M−1は各々右チャネルの各ディレイ情報に対応するゲインを示す。前述したように、各ゲイン情報は、該BRIRサブバンドフィルタ係数の全体パワー、該ディレイ情報に対応するピークの大きさなどに基づいて決定される。この時、ゲイン情報はサブバンドフィルタ係数における該ピーク値そのものが用いられてもよいが、全体サブバンドフィルタ係数に対するエネルギー補償が行われた後の該ピークの加重値が用いられてもよい。前記ゲイン情報は該ピークに対する実数加重値および虚数加重値を共に用いて得られ、よって複素数値を有する。
このように、ワン−タップ−ディレイラインフィルタによってフィルタリングされた複数のチャネル信号は、各サブバンド別に2チャネルの左、右出力信号Y_L、Y_Rで合算される。また、QTDLプロセッシング部250Bの各ワン−タップ−ディレイラインフィルタで用いられるパラメータはバイノーラルレンダリングの初期化過程でメモリに格納されることができ、パラメータの抽出のための追加的な演算なしでQTDLプロセッシングが行われることができる。
<BRIRパラメータ化の詳細>
図14は、本発明の実施形態によるBRIRパラメータ化部の各構成を示すブロック図である。図示すように、BRIRパラメータ化部300は、F−パートパラメータ化部320、P−パートパラメータ化部360およびQTDLパラメータ化部380を含むことができる。BRIRパラメータ化部300は時間ドメインのBRIRフィルタセットを入力として受信し、BRIRパラメータ化部300の各サブユニットは受信されたBRIRフィルタセットを用いてバイノーラルレンダリングのための各種パラメータを生成する。実施形態により、BRIRパラメータ化部300は制御パラメータの入力をさらに受けることができ、入力された制御パラメータに基づいてパラメータを生成することができる。
先ず、F−パートパラメータ化部320は、周波数ドメイン可変次数フィルタリング(VOFF)に必要な切断されたサブバンドフィルタ係数とそれに応じた補助パラメータを生成する。例えば、F−パートパラメータ化部320は、切断されたサブバンドフィルタ係数を生成するための周波数バンド別の残響時間情報、フィルタ次数情報などを算出し、切断されたサブバンドフィルタ係数に対するブロック単位の高速フーリエ変換を実行するためのブロックの大きさを決定する。F−パートパラメータ化部320で生成された一部パラメータはP−パートパラメータ化部360およびQTDLパラメータ化部380に伝達されることができる。この時、伝達されるパラメータはF−パートパラメータ化部320の最終出力値に限定されず、F−パートパラメータ化部320のプロセッシングに応じて中間に生成されたパラメータ、例えば、時間ドメインの切断されたBRIRフィルタ係数などを含むことができる。
P−パートパラメータ化部360はP−パートレンダリング、すなわち、後期残響を生成するために必要なパラメータを生成する。例えば、P−パートパラメータ化部360はダウンミックスサブバンドフィルタ係数、IC値などを生成することができる。また、QTDLパラメータ化部380はQTDLプロセッシングのためのパラメータを生成する。より具体的には、QTDLパラメータ化部380は、F−パートパラメータ化部320からサブバンドフィルタ係数の入力を受け、それを用いて各サブバンドにおけるディレイ情報およびゲイン情報を生成する。この時、QTDLパラメータ化部380はバイノーラルレンダリングを行う最大周波数バンドの情報(Kproc)およびコンボリューションを行う周波数バンドの情報(Kconv)を制御パラメータとして受信することができ、KprocとKconvを境界とするサブバンドグループの各周波数バンドに対してディレイ情報およびゲイン情報を生成することができる。一実施形態によれば、QTDLパラメータ化部380はF−パートパラメータ化部320に含まれた構成として提供されてもよい。
F−パートパラメータ化部320、P−パートパラメータ化部360およびQTDLパラメータ化部380によって各々生成されたパラメータはバイノーラルレンダリングユニット(図示せず)に送信される。一実施形態によれば、P−パートパラメータ化部360とQTDLパラメータ化部380は、バイノーラルレンダリングユニットにおいてP−パートレンダリング、QTDLプロセッシングが各々実行されるか否かに応じてパラメータの生成有無を決定することができる。仮にバイノーラルレンダリングユニットにおいてP−パートレンダリングおよびQTDLレンダリングのうち少なくとも1つが行われない場合、それに対応するP−パートパラメータ化部360、QTDLパラメータ化部380はパラメータを生成しなかったり、生成されたパラメータをバイノーラルレンダリングユニットに送信しなくてもよい。
図15は、本発明のF−パートパラメータ化部の各構成を示すブロック図である。図示したように、F−パートパラメータ化部320は、伝播時間算出部322、QMF変換部324およびF−パートパラメータ生成部330を含むことができる。F−パートパラメータ化部320は、受信された時間ドメインBRIRフィルタ係数を用いて、F−パートレンダリングのための切断されたサブバンドフィルタ係数を生成する過程を行う。
先ず、伝播時間算出部322は、時間ドメインBRIRフィルタ係数の伝播時間情報を算出し、算出された伝播時間情報に基づいて時間ドメインBRIRフィルタ係数を切断する。ここで、伝播時間情報はBRIRフィルタ係数の初期サンプルから直接音までの時間を示す。伝播時間算出部322は、時間ドメインBRIRフィルタ係数から前記算出された伝播時間に該当する部分を切断してそれを除去することができる。
BRIRフィルタ係数の伝播時間を推定するために様々な方法が使用できる。一実施形態によれば、BRIRフィルタ係数の最大ピーク値に比例する閾値より大きいエネルギー値が現れる最初の地点情報に基づいて伝播時間を推定することができる。この時、マルチチャネル入力の各チャネルから聴者までの距離は全て異なるため、チャネル別に伝播時間が各々異なりうる。しかし、バイノーラルレンダリングの実行時、伝播時間が切断されたBRIRフィルタ係数を用いてコンボリューションを実行し、最終バイノーラルレンダリングされた信号をディレイで補償するためには、全チャネルの伝播時間切断長さが同一でなければならない。また、各チャネルに同一の伝播時間情報を適用して切断を行えば、個別チャネルにおける誤差発生確率を減らすことができる。
ここで、NBRIRはBRIRフィルタの全体個数、Nhopは既に設定されたホップサイズ、Lfrmはフレームサイズを示す。すなわち、フレームエネルギーE(k)は、同一時間領域に対する各チャネル別のフレームエネルギーの平均値として算出されることができる。
前記定義されたフレームエネルギーE(k)を用いて、伝播時間(pt)は次の数式によって算出することができる。
すなわち、伝播時間算出部322は、既に設定されたホップ単位でシフト(shifting)してフレームエネルギーを測定し、フレームエネルギーが既に設定された閾値より大きい最初のフレームを識別する。この時、伝播時間は識別された最初のフレームの中間地点に決定されることができる。一方、数式5では閾値が最大フレームエネルギーより60dB低い値に設定されるものとして例示されているが、本発明はこれに限定されず、閾値は最大フレームエネルギーに比例する値または最大フレームエネルギーと既に設定された差を有する値に設定されることができる。
一方、ホップサイズ(Nhop)およびフレームサイズ(Lfrm)は、入力BRIRフィルタ係数がHRIR(Head Related Impulse Response)フィルタ係数であるか否かに基づいて可変しうる。この時、入力BRIRフィルタ係数がHRIRフィルタ係数であるか否かを示す情報(flag_HRIR)は外部から受信されてもよく、時間ドメインBRIRフィルタ係数の長さを用いて推定されてもよい。一般的に、初期反射音パートと後期残響パートの境界は80msであると知られている。よって、時間ドメインBRIRフィルタ係数の長さが80ms以下である場合は、該BRIRフィルタ係数はHRIRフィルタ係数であると判別され(flag_HRIR=1)、80msを超過する場合は、該BRIRフィルタ係数はHRIRフィルタ係数ではないと判別される(flag_HRIR=0)。仮に入力BRIRフィルタ係数がHRIRフィルタ係数であると判別される場合(flag_HRIR=1)のホップサイズ(Nhop)およびフレームサイズ(Lfrm)は、該BRIRフィルタ係数がHRIRフィルタ係数ではないと判別される場合(flag_HRIR=0)に比べて小さい値に設定されることができる。例えば、flag_HRIR=0の場合、ホップサイズ(Nhop)およびフレームサイズ(Lfrm)は各々サンプル単位として8および32に設定され、flag_HRIR=1の場合、ホップサイズ(Nhop)およびフレームサイズ(Lfrm)は各々サンプル単位として1および8に設定されることができる。
本発明の実施形態によれば、伝播時間算出部322は、算出された伝播時間情報に基づいて時間ドメインBRIRフィルタ係数を切断し、切断されたBRIRフィルタ係数をQMF変換部324に伝達することができる。ここで、切断されたBRIRフィルタ係数は、原本BRIRフィルタ係数から前記伝播時間に該当する部分を切断および除去した後に残存するフィルタ係数を示す。伝播時間算出部322は、入力チャネル別、出力左/右チャネル別に時間ドメインBRIRフィルタ係数を切断してQMF変換部324に伝達する。
QMF変換部324は、入力されたBRIRフィルタ係数の時間ドメイン−QMFドメイン間の変換を行う。すなわち、QMF変換部324は、時間ドメインの切断されたBRIRフィルタ係数を受信し、それを複数の周波数バンドに各々対応する複数のサブバンドフィルタ係数に変換する。変換されたサブバンドフィルタ係数はF−パートパラメータ生成部330に伝達され、F−パートパラメータ生成部330は受信されたサブバンドフィルタ係数を用いて切断されたサブバンドフィルタ係数を生成する。仮にF−パートパラメータ化部320の入力として時間ドメインBRIRフィルタ係数でないQMFドメインBRIRフィルタ係数が受信される場合、入力されたQMFドメインBRIRフィルタ係数はQMF変換部324をバイパス(bypass)することができる。また、他の実施形態によれば、入力フィルタ係数がQMFドメインBRIRフィルタ係数である場合、QMF変換部324はF−パートパラメータ化部320において省略されてもよい。
図16は、図15のF−パートパラメータ生成部の細部構成を示すブロック図である。図示したように、F−パートパラメータ生成部330は、残響時間算出部332、フィルタ次数決定部334およびVOFFフィルタ係数生成部336を含むことができる。F−パートパラメータ生成部330は、図15のQMF変換部324からQMFドメインのサブバンドフィルタ係数を受信することができる。また、バイノーラルレンダリングを行う最大周波数バンド情報(Kproc)、コンボリューションを行う周波数バンド情報(Kconv)、既に設定された最大FFT大きさ情報などの制御パラメータがF−パートパラメータ生成部330に入力されることができる。
先ず、残響時間算出部332は、受信されたサブバンドフィルタ係数を用いて残響時間情報を得る。得られた残響時間情報はフィルタ次数決定部334に伝達され、該サブバンドのフィルタ次数を決定するのに用いられる。一方、残響時間情報は測定環境に応じてバイアス(bias)や偏差が存在しうるため、他チャネルとの相互関係を用いて統一された値を利用することができる。一実施形態によれば、残響時間算出部332は、各サブバンドの平均残響時間情報を生成し、それをフィルタ次数決定部334に伝達する。入力チャネルインデックスm、出力左/右チャネルインデックスi、サブバンドインデックスkに対するサブバンドフィルタ係数の残響時間情報をRT(k,m,i)とする時、サブバンドkの平均残響時間情報RTkは次の数式によって算出することができる。
ここで、NBRIRはBRIRフィルタの全体個数である。
すなわち、残響時間算出部332は、マルチチャネル入力に対応する各サブバンドフィルタ係数から残響時間情報RT(k,m,i)を抽出し、同一サブバンドに対して抽出されたチャネル別の残響時間情報RT(k,m,i)の平均値(すなわち、平均残響時間情報RTk)を得る。得られた平均残響時間情報RTkはフィルタ次数決定部334に伝達され、フィルタ次数決定部334はそれを用いて該サブバンドに適用される1つのフィルタ次数を決定することができる。この時、得られる平均残響時間情報はRT20を含むことができ、実施形態により、他の残響時間情報、例えばRT30、RT60などが得られることもできる。一方、本発明の他の実施形態によれば、残響時間算出部332は、同一サブバンドに対して抽出されたチャネル別の残響時間情報の最大値および/または最小値を該サブバンドの代表残響時間情報としてフィルタ次数決定部334に伝達することができる。
次に、フィルタ次数決定部334は、得られた残響時間情報に基づいて該サブバンドのフィルタ次数を決定する。前述したように、フィルタ次数決定部334が得る残響時間情報は該サブバンドの平均残響時間情報であってもよく、実施形態によってはチャネル別の残響時間情報の最大値および/または最小値などの代表残響時間情報であってもよい。フィルタ次数は、該サブバンドのバイノーラルレンダリングのための切断されたサブバンドフィルタ係数の長さを決定するのに用いられる。
サブバンドkにおける平均残響時間情報をRTkとする時、該サブバンドのフィルタ次数情報NFilter[k]は次の数式によって得ることができる。
すなわち、フィルタ次数情報は、該サブバンドの平均残響時間情報のログスケールの整数単位の近似値(approximated integer value)を指数とする2の累乗値に決定されることができる。言い換えれば、フィルタ次数情報は、該サブバンドの平均残響時間情報をログスケールで四捨五入した値、切り上げした値、または切り下げした値を指数とする2の累乗値に決定されることができる。仮に、該サブバンドフィルタ係数の原本長さ、すなわち、最後のタイムスロット(nend)までの長さが数式7で決定された値より小さい場合、フィルタ次数情報はサブバンドフィルタ係数の原本長さ値(nend)に代替される。すなわち、フィルタ次数情報は数式7によって決定された基準切断長さと、サブバンドフィルタ係数の原本長さのうちの小さい値に決定されることができる。
一方、周波数に応じたエネルギーの減衰はログスケールにおいて線形的に近似可能である。よって、カーブフィッティング(curve fitting)方法を利用すれば、各サブバンドの最適化されたフィルタ次数情報を決定することができる。本発明の一実施形態によれば、フィルタ次数決定部334は、多項式カーブフィッティング(polynomial curve fitting)方法を利用してフィルタ次数情報を得ることができる。このために、フィルタ次数決定部334は、平均残響時間情報のカーブフィッティングのための少なくとも1つの係数を得ることができる。例えば、フィルタ次数決定部334は、各サブバンド別の平均残響時間情報をログスケールの一次方程式でカーブフィッティングし、その一次方程式の傾き値aと切片値bを得ることができる。
サブバンドkにおけるカーブフィッティングされたフィルタ次数情報N’Filter[k]は前記得られた係数を用いて次の数式によって得ることができる。
すなわち、カーブフィッティングされたフィルタ次数情報は、該サブバンドの平均残響時間情報の多項式カーブフィッティングされた値の整数単位の近似値を指数とする2の累乗値に決定されることができる。言い換えれば、カーブフィッティングされたフィルタ次数情報は、該サブバンドの平均残響時間情報の多項式カーブフィッティングされた値を四捨五入した値、切り上げした値、または切り下げした値を指数とする2の累乗値に決定されることができる。仮に、該サブバンドフィルタ係数の原本長さ、すなわち、最後のタイムスロット(nend)までの長さが数式8で決定された値より小さい場合、フィルタ次数情報はサブバンドフィルタ係数の原本長さ値(nend)に代替される。すなわち、フィルタ次数情報は数式8によって決定された基準切断長さと、サブバンドフィルタ係数の原本長さのうちの小さい値に決定されることができる。
本発明の実施形態によれば、原型BRIRフィルタ係数、すなわち、時間ドメインのBRIRフィルタ係数がHRIRフィルタ係数であるか否か(flag_HRIR)に基づき、前記数式7または数式8のうちいずれか1つを用いてフィルタ次数情報が得られる。前述したように、flag_HRIRの値は、原型BRIRフィルタ係数の長さが既に設定された値を超過するか否かに基づいて決定されることができる。仮に、BRIRフィルタ係数の長さが既に設定された値を超過する場合(すなわち、flag_HRIR=0)、フィルタ次数情報は前記数式8によってカーブフィッティングされた値に決定されることができる。しかし、BRIRフィルタ係数の長さが既に設定された値を超過しない場合(すなわち、flag_HRIR=1)、フィルタ次数情報は前記数式7によってカーブフィッティングされていない値に決定されることができる。すなわち、フィルタ次数情報は、カーブフィッティングの実行なしで該サブバンドの平均残響時間情報に基づいて決定されることができる。これは、HRIRの場合、ルーム(room)の影響を受けないので、エネルギー減衰に対する傾向が明らかでないためである。
一方、本発明の実施形態によれば、0番目のサブバンド(サブバンドインデックス0)に対するフィルタ次数情報の取得時には、カーブフィッティングを実行していない平均残響時間情報を用いることができる。ルームモード(room mode)の影響などにより、0番目のサブバンドの残響時間は他サブバンドの残響時間とは異なる傾向を有しうるためである。よって、本発明の実施形態によれば、数式8によるカーブフィッティングされたフィルタ次数情報は、インデックス0でないサブバンドにおいてflag_HRIR=0である時にのみ用いられる。
前述した実施形態に応じて決定された各サブバンドのフィルタ次数情報はVOFFフィルタ係数生成部336に伝達される。VOFFフィルタ係数生成部336は、得られたフィルタ次数情報に基づいて切断されたサブバンドフィルタ係数を生成する。本発明の一実施形態によれば、切断されたサブバンドフィルタ係数は、ブロック単位(block−wise)の高速コンボリューションのために既に設定されたブロック単位で高速フーリエ変換(Fast Fourier Transforrm、FFT)が行われた少なくとも1つのFFTフィルタ係数で構成されることができる。VOFFフィルタ係数生成部336は、図17および図18を参照して後述するように、ブロック単位(block−wise)の高速コンボリューションのための前記FFTフィルタ係数を生成することができる。
本発明の実施形態によれば、効率および性能の観点における最適なバイノーラルレンダリングのために既に設定されたブロック単位の高速コンボリューションを実行することができる。FFTに基づいた高速コンボリューションはFFT大きさが大きいほど演算量が減るが、全体プロセッシングディレイは増加し、メモリ使用量は増えるという特徴を有する。仮に1秒の長さを有するBRIRを該当長さの2倍に該当する長さを有するFFT大きさで高速コンボリューションする場合、演算量の観点では効率的であるが、1秒に該当するディレイが発生し、それに対応するバッファとプロセッシングメモリが必要となる。長いディレイ時間を有するオーディオ信号処理方法はリアルタイムデータ処理のためのアプリケーションなどには好適ではない。オーディオ信号処理装置において復号化を実行できる最小の単位はフレームであるため、バイノーラルレンダリングもフレーム単位に対応する大きさでブロック単位の高速コンボリューションを実行することが好ましい。
図17は、ブロック単位の高速コンボリューションのためのFFTフィルタ係数生成方法の一実施形態を示している。前述した実施形態と同様に、図17の実施形態において、原型FIRフィルタはK個のサブバンドフィルタに変換され、Fkはサブバンドkの切断されたサブバンドフィルタを示す。各サブバンド(Band 0〜Band K−1)は周波数ドメインにおけるサブバンド、すなわち、QMFサブバンドを示す。QMFドメインは全64個のサブバンドを用いることができるが、本発明はこれに限定されるものではない。また、Nは原本サブバンドフィルタの長さ(タップ数)を示し、切断されたサブバンドフィルタの長さは各々N1、N2、N3で示す。すなわち、Zone 1に含まれたサブバンドkの切断されたサブバンドフィルタ係数の長さはN1値を、Zone 2に含まれたサブバンドkの切断されたサブバンドフィルタ係数の長さはN2値を、Zone 3に含まれたサブバンドkの切断されたサブバンドフィルタ係数の長さはN3値を有する。この時、長さN、N1、N2およびN3はダウンサンプルされたQMFドメインにおけるタップ数を示す。前述したように、切断されたサブバンドフィルタの長さは、図17に示すように各サブバンドグループ(Zone 1、Zone 2、Zone 3)別に独立に決定されてもよいが、各サブバンド別に独立に決定されてもよい。
図17を参照すれば、本発明のVOFFフィルタ係数生成部336は、切断されたサブバンドフィルタ係数を該サブバンド(または、サブバンドグループ)における既に設定されたブロック単位で高速フーリエ変換を実行してFFTフィルタ係数を生成することができる。この時、各サブバンドkにおける既に設定されたブロックの長さ(NFFT(k))は既に設定された最大FFT大きさ(L)に基づいて決定される。より具体的には、サブバンドkにおける既に設定されたブロックの長さ(NFFT(k))は次のような数式で表すことができる。
ここで、Lは既に設定された最大FFT大きさであり、N_kは切断されたサブバンドフィルタ係数の基準フィルタ長さである。
すなわち、既に設定されたブロックの長さNFFT(k)は、切断されたサブバンドフィルタ係数の基準フィルタ長さ(N_k)の2倍と、既に設定された最大FFT大きさ(L)のうちの小さい値に決定されることができる。仮に、図17のZone 1およびZone 2のように、切断されたサブバンドフィルタ係数の基準フィルタ長さ(N_k)の2倍値が最大FFT大きさ(L)より大きいかまたは同一である場合(または、大きい場合)、既に設定されたブロックの長さ(NFFT(k))は最大FFT大きさ(L)に決定される。しかし、図17のZone 3のように、切断されたサブバンドフィルタ係数の基準フィルタ長さ(N_k)の2倍値が最大FFT大きさ(L)より小さい場合(または、小さいかまたは同一である場合)、既に設定されたブロックの長さ(NFFT(k))は基準フィルタ長さ(N_k)の2倍値に決定される。後述するように、切断されたサブバンドフィルタ係数はゼロ−パッデングによって2倍の長さに拡張された後に高速フーリエ変換が行われるため、高速フーリエ変換のためのブロックの長さ(NFFT(k))は基準フィルタ長さ(N_k)の2倍値と既に設定された最大FFT大きさ(L)間の比較結果に基づいて決定されることができる。
ここで、基準フィルタ長さ(N_k)は、該サブバンドにおけるフィルタ次数(すなわち、切断されたサブバンドフィルタ係数の長さ)の2の累乗形態の真値または近似値のうちいずれか1つを示す。すなわち、サブバンドkのフィルタ次数が2の累乗形態である場合は、該フィルタ次数がサブバンドkにおける基準フィルタ長さ(N_k)として用いられ、2の累乗形態でない場合(例えば、nend)は、該フィルタ次数の2の累乗形態の四捨五入した値、切り上げした値、または切り下げした値が基準フィルタ長さ(N_k)として用いられる。一例として、Zone 3のサブバンドK−1のフィルタ次数であるN3は2の累乗値ではないため、2の累乗形態の近似値であるN3’が該サブバンドの基準フィルタ長さ(N_K−1)として用いられることができる。この時、基準フィルタ長さであるN3’の2倍値は最大FFT大きさ(L)より小さいため、サブバンドK−1における既に設定されたブロックの長さ(NFFT(K−1))はN3’の2倍値に設定されることができる。一方、本発明の実施形態によれば、既に設定されたブロックの長さ(NFFT(k))および基準フィルタ長さ(N_k)は全て2の累乗値となることができる。
このように、各サブバンドにおけるブロックの長さ(NFFT(k))が決定されれば、VOFFフィルタ係数生成部336は決定されたブロック単位で切断されたサブバンドフィルタ係数に対する高速フーリエ変換を行う。より具体的には、VOFFフィルタ係数生成部336は、切断されたサブバンドフィルタ係数を既に設定されたブロックの半分(NFFT(k)/2)単位に分割する。図17に示されたF−パートの点線境界の領域は既に設定されたブロックの半分単位に分割されるサブバンドフィルタ係数を示す。次に、BRIRパラメータ化部は、各々の分割されたフィルタ係数を用いて既に設定されたブロック単位(NFFT(k))の臨時フィルタ係数を生成する。この時、臨時フィルタ係数の前半部は分割されたフィルタ係数で構成され、後半部はゼロ−パッデングされた値で構成される。それにより、既に設定されたブロックの半分長さ(NFFT(k)/2)のフィルタ係数を用いて既に設定されたブロック長さ(NFFT(k))の臨時フィルタ係数が生成される。次に、BRIRパラメータ化部は、前記生成された臨時フィルタ係数を高速フーリエ変換してFFTフィルタ係数を生成する。このように生成されたFFTフィルタ係数は、入力オーディオ信号に対する既に設定されたブロック単位の高速コンボリューションに用いられることができる。
このように、本発明の実施形態によれば、VOFFフィルタ係数生成部336は、各サブバンド別に(または、サブバンドグループ別に)独立に決定された長さのブロック単位で、切断されたサブバンドフィルタ係数に対する高速フーリエ変換を実行してFFTフィルタ係数を生成することができる。それにより、各サブバンド別に(または、各サブバンドグループ別に)互いに異なる個数のブロックを用いた高速コンボリューションが行われることができる。この時、サブバンドkにおけるブロックの個数Nblk(k)は次のような数式を満たすことができる。
ここで、Nblk(k)は自然数。
すなわち、サブバンドkにおけるブロックの個数(Nblk(k))は、該サブバンドにおける基準フィルタ長さ(N_k)の2倍値を既に設定されたブロックの長さ(NFFT(k))で分けた値に決定されることができる。
図18は、ブロック単位の高速コンボリューションのためのFFTフィルタ係数生成方法の他の実施形態を示している。図18の実施形態において、図10または図17の実施形態と同一または相応する部分については重複する説明は省略する。
図18を参照すれば、周波数ドメインの複数のサブバンドは、既に設定された周波数バンド(QMFバンドi)を基準にした低周波数の第1サブバンドグループ(Zone 1)と、高周波数の第2サブバンドグループ(Zone 2)に分類されることができる。または、複数のサブバンドは、既に設定された第1周波数バンド(QMFバンドi)および第2周波数バンド(QMFバンドj)に基づいて3個のサブバンドグループ、すなわち、第1サブバンドグループ(Zone 1)、第2サブバンドグループ(Zone 2)、および第3サブバンドグループ(Zone 3)に分類されることもできる。この時、第1サブバンドグループの入力サブバンド信号に対してはブロック単位の高速コンボリューションを用いたF−パートレンダリングが、第2サブバンドグループの入力サブバンド信号に対してはQTDLプロセッシングが行われることができる。そして、第3サブバンドグループのサブバンド信号に対してはレンダリングを行わなくてもよい。
よって、本発明の一実施形態によれば、前述した既に設定されたブロック単位のFFTフィルタ係数の生成過程は、第1サブバンドグループのフロントサブバンドフィルタ(Fk)に対して限定的に行われることができる。一方、実施形態によっては第1サブバンドグループのサブバンド信号に対するP−パートレンダリングが後期残響生成部によって実行できるということは前述した通りである。本発明の実施形態によれば、入力オーディオ信号に対するP−パートレンダリング(すなわち、後期残響処理過程)は、原型BRIRフィルタ係数の長さが既に設定された値を超過するか否かに基づいて行われることができる。前述したように、原型BRIRフィルタ係数の長さが既に設定された値を超過するか否かはそれを指示するフラグ(すなわち、flag_BRIR)によって示されることができる。仮に原型BRIRフィルタ係数の長さが既に設定された値を超過する場合(flag_HRIR=0)、入力オーディオ信号に対するP−パートレンダリングが行われることができる。しかし、原型BRIRフィルタ係数の長さが既に設定された値を超過しない場合(flag_HRIR=1)、入力オーディオ信号に対するP−パートレンダリングが行われなくてもよい。
仮にP−パートレンダリングが行われないのであれば、第1サブバンドグループの各サブバンド信号にはF−パートレンダリングだけが行われることができる。しかし、F−パートレンダリングのために指定された各サブバンドのフィルタ次数(すなわち、切断地点)は該サブバンドフィルタ係数の全体長さより小さくてもよく、それによってエネルギーミスマッチ(energy mismatch)が発生しうる。よって、それを防止するために、本発明の実施形態によれば、flag_HRIR情報に基づいて切断されたサブバンドフィルタ係数に対するエネルギー補償が行われることができる。すなわち、原型BRIRフィルタ係数の長さが既に設定された値を超過しない場合(flag_HRIR=1)、切断されたサブバンドフィルタ係数またはそれを構成する各FFTフィルタ係数にはエネルギー補償が行われたフィルタ係数が用いられることができる。この時、エネルギー補償は、フィルタ次数情報(NFilter[k])に基づいた切断地点以前のフィルタ係数に対し、切断地点までのフィルタパワーを分け、該サブバンドフィルタ係数の全体フィルタパワーをかけることによって行われることができる。全体フィルタパワーは、該サブバンドフィルタ係数の初期のサンプルから最後のサンプル(nend)までのフィルタ係数に対するパワーの和として定義されることができる。
一方、本発明の他の実施形態によれば、各サブバンドフィルタ係数のフィルタ次数はチャネルごとに互いに異なるように設定されることができる。例えば、入力信号がより多いエネルギーを含むフロントチャネル(front channels)に対するフィルタ次数は、相対的に少ないエネルギーを含むリヤチャネル(rear channels)に対するフィルタ次数より高く設定されることができる。それにより、フロントチャネルに対してはバイノーラルレンダリング以後に反映される解像度を高め、リヤチャネルに対しては低い演算量でレンダリングを行うことができる。ここで、フロントチャネルとリヤチャネルの区分はマルチチャネル入力信号の各チャネルに割り当てられたチャネル名に限定されず、各チャネルは既に設定された空間的基準に基づいてフロントチャネルとリヤチャネルに分類されることができる。また、本発明の更なる実施形態によれば、マルチチャネルの各チャネルは既に設定された空間的基準に基づいて3個以上のチャネルグループに分類され、各チャネルグループ別に互いに異なるフィルタ次数が用いられることができる。または、各チャネルに対応するサブバンドフィルタ係数のフィルタ次数は、仮想再生空間上の該当チャネルの位置情報に基づいて互いに異なる加重値が適用された値が用いられることができる。
図19は、本発明のQTDLパラメータ化部の各構成を示すブロック図である。図示したように、QTDLパラメータ化部380はピーク探索部382およびゲイン生成部384を含むことができる。QTDLパラメータ化部380はF−パートパラメータ化部320からQMFドメインのサブバンドフィルタ係数を受信することができる。また、QTDLパラメータ化部380は、バイノーラルレンダリングを行う最大周波数バンドの情報(Kproc)およびコンボリューションを行う周波数バンドの情報(Kconv)を制御パラメータとして受信することができ、KprocとKconvを境界とするサブバンドグループ(第2サブバンドグループ)の各周波数バンドに対してディレイ情報およびゲイン情報を生成することができる。
ここで、nendは該サブバンドフィルタ係数の最後のタイムスロットを示す。
すなわち、数式11を参照すれば、ディレイ情報は該BRIRサブバンドフィルタ係数の大きさが最大となるタイムスロットの情報を示し、これは該BRIRサブバンドフィルタ係数の最大ピークの位置情報を示す。また、数式12を参照すれば、ゲイン情報は、該BRIRサブバンドフィルタ係数の全体パワー値に、前記最大ピーク位置におけるBRIRサブバンドフィルタ係数の符号をかけた値に決定されることができる。
ピーク探索部382は、数式11に基づき、第2サブバンドグループの各サブバンドフィルタ係数における最大ピークの位置、すなわち、ディレイ情報を得る。また、ゲイン生成部384は、数式12に基づき、各サブバンドフィルタ係数に対するゲイン情報を得る。数式11および数式12はディレイ情報およびゲイン情報を得る数式の一例を示すが、各情報を算出するための数式の具体的な形態は多様に変形可能である。
以上では本発明を具体的な実施形態によって説明したが、当業者であれば、本発明の趣旨および範囲を逸脱することなく修正、変更をすることができる。すなわち、本発明はマルチオーディオ信号に対するバイノーラルレンダリングの実施形態について説明したが、本発明はオーディオ信号だけでなくビデオ信号を含む様々なマルチメディア信号にも同様に適用および拡張することができる。よって、本発明の詳細な説明および実施形態から本発明が属する技術分野に属した者が容易に類推できるものは本発明の権利範囲に属すると解釈される。

Claims (10)

  1. 入力オーディオ信号のバイノーラルフィルタリングのための少なくとも1つのBRIR(Binaural Room Impulse Response)フィルタ係数を受信するステップ;
    前記BRIRフィルタ係数を複数のサブバンドフィルタ係数に変換するステップ;
    前記サブバンドフィルタ係数から抽出された残響時間情報を用いて該サブバンドの平均残響時間情報を得るステップ;
    前記得られた平均残響時間情報のカーブフィッティング(curve fitting)のための少なくとも1つの係数を得るステップ;
    時間ドメイン上における前記BRIRフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を得るステップ;
    前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るステップ、前記フィルタ次数情報は前記得られたフラグ情報に応じて前記平均残響時間情報または前記少なくとも1つの係数を用いて得られ、少なくとも1つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なる;および
    前記得られたフィルタ次数情報を用いて前記サブバンドフィルタ係数を切断するステップ;
    を含むことを特徴とするオーディオ信号のフィルタ生成方法。
  2. 前記フラグ情報が前記BRIRフィルタ係数の長さが既に設定された値を超過することを示す場合、前記フィルタ次数情報は前記得られた少なくとも1つの係数を用いてカーブフィッティングされた値に基づいて決定されることを特徴とする、請求項1に記載のオーディオ信号のフィルタ生成方法。
  3. 前記カーブフィッティングされたフィルタ次数情報は、前記少なくとも1つの係数を用いて多項式カーブフィッティングされた値の整数単位の近似値を指数とする2の累乗値に決定されることを特徴とする、請求項2に記載のオーディオ信号のフィルタ生成方法。
  4. 前記フラグ情報が前記BRIRフィルタ係数の長さが既に設定された値を超過しないことを示す場合、前記フィルタ次数情報は前記カーブフィッティングの実行なしで該サブバンドの前記平均残響時間情報に基づいて決定されることを特徴とする、請求項1に記載のオーディオ信号のフィルタ生成方法。
  5. 前記フィルタ次数情報は、前記平均残響時間情報のログスケールの整数単位の近似値を指数とする2の累乗値に決定されることを特徴とする、請求項4に記載のオーディオ信号のフィルタ生成方法。
  6. 前記フィルタ次数情報は、前記平均残響時間情報に基づいて決定された該サブバンドの基準切断長さと前記サブバンドフィルタ係数の原本長さのうちの小さい値に決定されることを特徴とする、請求項1に記載のオーディオ信号のフィルタ生成方法。
  7. 前記基準切断長さは2の累乗値であることを特徴とする、請求項6に記載のオーディオ信号のフィルタ生成方法。
  8. 前記フィルタ次数情報は各サブバンド別に1つの値を有することを特徴とする、請求項1に記載のオーディオ信号のフィルタ生成方法。
  9. 前記平均残響時間情報は、同一サブバンドの少なくとも1つのサブバンドフィルタ係数から抽出されたチャネル別の残響時間情報の平均値であることを特徴とする、請求項1に記載のオーディオ信号のフィルタ生成方法。
  10. オーディオ信号のフィルタを生成するためのパラメータ化装置であって、
    前記パラメータ化装置は、
    入力オーディオ信号のバイノーラルフィルタリングのための少なくとも1つのBRIR(Binaural Room Impulse Response)フィルタ係数を受信し;
    前記BRIRフィルタ係数を複数のサブバンドフィルタ係数に変換し;
    前記サブバンドフィルタ係数から抽出された残響時間情報を用いて該サブバンドの平均残響時間情報を取得し;
    前記得られた平均残響時間情報のカーブフィッティング(curve fitting)のための少なくとも1つの係数を取得し;
    時間ドメイン上における前記BRIRフィルタ係数の長さが既に設定された値を超過するか否かを示すフラグ情報を取得し;
    前記サブバンドフィルタ係数の切断長さを決定するためのフィルタ次数情報を得るが、前記フィルタ次数情報は前記得られたフラグ情報に応じて前記平均残響時間情報または前記少なくとも1つの係数を用いて得られ、少なくとも1つのサブバンドの前記フィルタ次数情報は他サブバンドのフィルタ次数情報とは異なり;
    前記得られたフィルタ次数情報を用いて前記サブバンドフィルタ係数を切断する;
    パラメータ化装置。
JP2016542765A 2013-12-23 2014-12-23 オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置 Active JP6151866B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20130161114 2013-12-23
KR10-2013-0161114 2013-12-23
PCT/KR2014/012758 WO2015099424A1 (ko) 2013-12-23 2014-12-23 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치

Publications (2)

Publication Number Publication Date
JP2017505039A JP2017505039A (ja) 2017-02-09
JP6151866B2 true JP6151866B2 (ja) 2017-06-21

Family

ID=53479196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016542765A Active JP6151866B2 (ja) 2013-12-23 2014-12-23 オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置

Country Status (8)

Country Link
US (6) US9832589B2 (ja)
EP (4) EP4246513A3 (ja)
JP (1) JP6151866B2 (ja)
KR (7) KR102215124B1 (ja)
CN (3) CN106416302B (ja)
BR (1) BR112016014892B1 (ja)
CA (1) CA2934856C (ja)
WO (3) WO2015099430A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105009207B (zh) 2013-01-15 2018-09-25 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CA3194257A1 (en) 2013-09-17 2015-03-26 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals
US10580417B2 (en) 2013-10-22 2020-03-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
JP6151866B2 (ja) 2013-12-23 2017-06-21 ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置
WO2015142073A1 (ko) 2014-03-19 2015-09-24 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
EP3128766A4 (en) 2014-04-02 2018-01-03 Wilus Institute of Standards and Technology Inc. Audio signal processing method and device
DK3353779T3 (da) 2015-09-25 2020-08-10 Voiceage Corp Fremgangsmåde og system til kodning af et stereolydssignal ved at anvende kodningsparametre for en primær kanal til at kode en sekundær kanal
US10142755B2 (en) * 2016-02-18 2018-11-27 Google Llc Signal processing methods and systems for rendering audio on virtual loudspeaker arrays
GB201609089D0 (en) * 2016-05-24 2016-07-06 Smyth Stephen M F Improving the sound quality of virtualisation
WO2018186779A1 (en) * 2017-04-07 2018-10-11 Dirac Research Ab A novel parametric equalization for audio applications
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
US10972859B2 (en) * 2017-04-13 2021-04-06 Sony Corporation Signal processing apparatus and method as well as program
EP3416167B1 (en) * 2017-06-16 2020-05-13 Nxp B.V. Signal processor for single-channel periodic noise reduction
WO2019031652A1 (ko) * 2017-08-10 2019-02-14 엘지전자 주식회사 3차원 오디오 재생 방법 및 재생 장치
EP3704875B1 (en) 2017-10-30 2023-05-31 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
CN111107481B (zh) * 2018-10-26 2021-06-22 华为技术有限公司 一种音频渲染方法及装置
CN111211759B (zh) * 2019-12-31 2022-03-25 京信网络***股份有限公司 滤波器系数确定方法、装置和数字das***
TWI772929B (zh) * 2020-10-21 2022-08-01 美商音美得股份有限公司 分析濾波器組 及其運算程序、音訊移頻系統 及音訊移頻程序
US11568884B2 (en) * 2021-05-24 2023-01-31 Invictumtech, Inc. Analysis filter bank and computing procedure thereof, audio frequency shifting system, and audio frequency shifting procedure

Family Cites Families (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5084264A (ja) 1973-11-22 1975-07-08
US5329587A (en) 1993-03-12 1994-07-12 At&T Bell Laboratories Low-delay subband adaptive filter
US5371799A (en) 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
DE4328620C1 (de) * 1993-08-26 1995-01-19 Akg Akustische Kino Geraete Verfahren zur Simulation eines Raum- und/oder Klangeindrucks
WO1995034883A1 (fr) 1994-06-15 1995-12-21 Sony Corporation Processeur de signaux et dispositif de reproduction sonore
JP2985675B2 (ja) 1994-09-01 1999-12-06 日本電気株式会社 帯域分割適応フィルタによる未知システム同定の方法及び装置
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
JP4627880B2 (ja) 1997-09-16 2011-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション リスナーの周囲にある音源の空間的ひろがり感を増強するためのステレオヘッドホンデバイス内でのフィルタ効果の利用
JP3979133B2 (ja) * 2002-03-13 2007-09-19 ヤマハ株式会社 音場再生装置、プログラム及び記録媒体
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
US7680289B2 (en) 2003-11-04 2010-03-16 Texas Instruments Incorporated Binaural sound localization using a formant-type cascade of resonators and anti-resonators
US7949141B2 (en) 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
KR100595202B1 (ko) * 2003-12-27 2006-06-30 엘지전자 주식회사 디지털 오디오 워터마크 삽입/검출 장치 및 방법
ATE430360T1 (de) 2004-03-01 2009-05-15 Dolby Lab Licensing Corp Mehrkanalige audiodekodierung
KR100634506B1 (ko) 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
KR100617165B1 (ko) * 2004-11-19 2006-08-31 엘지전자 주식회사 워터마크 삽입/검출 기능을 갖는 오디오 부호화/복호화장치 및 방법
US7715575B1 (en) 2005-02-28 2010-05-11 Texas Instruments Incorporated Room impulse response
EP1740016B1 (en) 2005-06-28 2010-02-24 AKG Acoustics GmbH Method for the simulation of a room impression and/or sound impression
JP4927848B2 (ja) 2005-09-13 2012-05-09 エスアールエス・ラブス・インコーポレーテッド オーディオ処理のためのシステムおよび方法
JP4921470B2 (ja) 2005-09-13 2012-04-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置
KR101562379B1 (ko) * 2005-09-13 2015-10-22 코닌클리케 필립스 엔.브이. 공간 디코더 유닛 및 한 쌍의 바이노럴 출력 채널들을 생성하기 위한 방법
EP1927265A2 (en) 2005-09-13 2008-06-04 Koninklijke Philips Electronics N.V. A method of and a device for generating 3d sound
US8443026B2 (en) 2005-09-16 2013-05-14 Dolby International Ab Partially complex modulated filter bank
US7917561B2 (en) 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
EP1942582B1 (en) 2005-10-26 2019-04-03 NEC Corporation Echo suppressing method and device
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
CN101882441B (zh) * 2006-01-27 2013-02-27 杜比国际公司 利用复调制滤波器组的高效滤波
BRPI0707969B1 (pt) 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
KR100754220B1 (ko) 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
EP1994796A1 (en) 2006-03-15 2008-11-26 Dolby Laboratories Licensing Corporation Binaural rendering using subband filters
FR2899424A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede de synthese binaurale prenant en compte un effet de salle
FR2899423A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede et dispositif de spatialisation sonore binaurale efficace dans le domaine transforme.
KR101244910B1 (ko) * 2006-04-03 2013-03-18 삼성전자주식회사 시분할 입체 영상 디스플레이 장치 및 그 구동 방법
US8374365B2 (en) 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
EP3236587B1 (en) * 2006-07-04 2018-11-21 Dolby International AB Filter system comprising a filter converter and a filter compressor and method for operating the filter system
US7876903B2 (en) * 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
US9496850B2 (en) 2006-08-04 2016-11-15 Creative Technology Ltd Alias-free subband processing
EP2076901B8 (en) 2006-10-25 2017-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
EP2102858A4 (en) 2006-12-07 2010-01-20 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
KR20080076691A (ko) 2007-02-14 2008-08-20 엘지전자 주식회사 멀티채널 오디오신호 복호화방법 및 그 장치, 부호화방법및 그 장치
KR100955328B1 (ko) 2007-05-04 2010-04-29 한국전자통신연구원 반사음 재생을 위한 입체 음장 재생 장치 및 그 방법
US8140331B2 (en) 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
KR100899836B1 (ko) 2007-08-24 2009-05-27 광주과학기술원 실내 충격응답 모델링 방법 및 장치
GB2467668B (en) * 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
ES2461601T3 (es) * 2007-10-09 2014-05-20 Koninklijke Philips N.V. Procedimiento y aparato para generar una señal de audio binaural
KR100971700B1 (ko) * 2007-11-07 2010-07-22 한국전자통신연구원 공간큐 기반의 바이노럴 스테레오 합성 장치 및 그 방법과,그를 이용한 바이노럴 스테레오 복호화 장치
US8125885B2 (en) 2008-07-11 2012-02-28 Texas Instruments Incorporated Frequency offset estimation in orthogonal frequency division multiple access wireless networks
CN103561378B (zh) 2008-07-31 2015-12-23 弗劳恩霍夫应用研究促进协会 双耳信号的信号生成
TWI475896B (zh) * 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
JP5611970B2 (ja) * 2008-11-21 2014-10-22 アウロ テクノロジーズ オーディオ信号を変換するためのコンバータ及び方法
KR20100062784A (ko) 2008-12-02 2010-06-10 한국전자통신연구원 객체 기반 오디오 컨텐츠 생성/재생 장치
WO2010091077A1 (en) * 2009-02-03 2010-08-12 University Of Ottawa Method and system for a multi-microphone noise reduction
EP2237270B1 (en) 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
FR2944403B1 (fr) 2009-04-10 2017-02-03 Inst Polytechnique Grenoble Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
WO2010122455A1 (en) 2009-04-21 2010-10-28 Koninklijke Philips Electronics N.V. Audio signal synthesizing
JP4893789B2 (ja) 2009-08-10 2012-03-07 ヤマハ株式会社 音場制御装置
US9432790B2 (en) 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
EP2365630B1 (en) 2010-03-02 2016-06-08 Harman Becker Automotive Systems GmbH Efficient sub-band adaptive fir-filtering
PL3570278T3 (pl) 2010-03-09 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów
KR101844511B1 (ko) 2010-03-19 2018-05-18 삼성전자주식회사 입체 음향 재생 방법 및 장치
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8693677B2 (en) 2010-04-27 2014-04-08 Freescale Semiconductor, Inc. Techniques for updating filter coefficients of an adaptive filter
KR101819027B1 (ko) 2010-08-06 2018-01-17 삼성전자주식회사 오디오 재생 방법 및 그에 따른 오디오 재생 장치, 및 정보 저장 매체
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
CA3067155C (en) 2010-09-16 2021-01-19 Dolby International Ab Cross product enhanced subband block based harmonic transposition
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
EP2464146A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
TR201815799T4 (tr) 2011-01-05 2018-11-21 Anheuser Busch Inbev Sa Bir audio sistemi ve onun operasyonunun yöntemi.
EP2541542A1 (en) 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
EP2503800B1 (en) 2011-03-24 2018-09-19 Harman Becker Automotive Systems GmbH Spatially constant surround sound
JP5704397B2 (ja) 2011-03-31 2015-04-22 ソニー株式会社 符号化装置および方法、並びにプログラム
CN103548077B (zh) 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
EP2530840B1 (en) 2011-05-30 2014-09-03 Harman Becker Automotive Systems GmbH Efficient sub-band adaptive FIR-filtering
JP2013031145A (ja) * 2011-06-24 2013-02-07 Toshiba Corp 音響制御装置
US9135927B2 (en) * 2012-04-30 2015-09-15 Nokia Technologies Oy Methods and apparatus for audio processing
WO2014036121A1 (en) 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
US20140270189A1 (en) 2013-03-15 2014-09-18 Beats Electronics, Llc Impulse response approximation methods and related systems
US9369818B2 (en) 2013-05-29 2016-06-14 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
CA3194257A1 (en) 2013-09-17 2015-03-26 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals
US10580417B2 (en) 2013-10-22 2020-03-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
JP6151866B2 (ja) 2013-12-23 2017-06-21 ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置
WO2015142073A1 (ko) 2014-03-19 2015-09-24 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
KR20200108121A (ko) 2020-09-16
KR20210016071A (ko) 2021-02-10
KR101627661B1 (ko) 2016-06-07
US20190082285A1 (en) 2019-03-14
US20180048981A1 (en) 2018-02-15
CA2934856A1 (en) 2015-07-02
EP4246513A2 (en) 2023-09-20
CN108922552B (zh) 2023-08-29
KR20180021258A (ko) 2018-02-28
CN108597528B (zh) 2023-05-30
BR112016014892A2 (pt) 2017-08-08
EP3089483A1 (en) 2016-11-02
US20210368286A1 (en) 2021-11-25
BR112016014892A8 (pt) 2020-06-09
BR112016014892B1 (pt) 2022-05-03
JP2017505039A (ja) 2017-02-09
US10433099B2 (en) 2019-10-01
CN106416302A (zh) 2017-02-15
EP3697109A1 (en) 2020-08-19
CN108922552A (zh) 2018-11-30
WO2015099429A1 (ko) 2015-07-02
US10701511B2 (en) 2020-06-30
KR20160020572A (ko) 2016-02-23
KR102281378B1 (ko) 2021-07-26
US9832589B2 (en) 2017-11-28
KR102215124B1 (ko) 2021-02-10
KR102157118B1 (ko) 2020-09-17
WO2015099424A1 (ko) 2015-07-02
EP3934283B1 (en) 2023-08-23
EP3934283A1 (en) 2022-01-05
US11689879B2 (en) 2023-06-27
KR20210094125A (ko) 2021-07-28
US11109180B2 (en) 2021-08-31
CN108597528A (zh) 2018-09-28
KR102403426B1 (ko) 2022-05-30
EP3697109B1 (en) 2021-08-18
US20190373399A1 (en) 2019-12-05
US20200260212A1 (en) 2020-08-13
WO2015099430A1 (ko) 2015-07-02
US20160323688A1 (en) 2016-11-03
CN106416302B (zh) 2018-07-24
CA2934856C (en) 2020-01-14
EP3089483A4 (en) 2017-08-30
KR101833059B1 (ko) 2018-02-27
US10158965B2 (en) 2018-12-18
KR20160091361A (ko) 2016-08-02
KR101627657B1 (ko) 2016-06-07
KR20160021855A (ko) 2016-02-26
EP4246513A3 (en) 2023-12-13
EP3089483B1 (en) 2020-05-13

Similar Documents

Publication Publication Date Title
JP6151866B2 (ja) オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置
JP6121052B2 (ja) マルチメディア信号処理方法および装置
KR101804744B1 (ko) 오디오 신호 처리 방법 및 장치
KR102216657B1 (ko) 오디오 신호 처리 방법 및 장치
KR102230308B1 (ko) 멀티미디어 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170525

R150 Certificate of patent or registration of utility model

Ref document number: 6151866

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S201 Request for registration of exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R314201

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S303 Written request for registration of pledge or change of pledge

Free format text: JAPANESE INTERMEDIATE CODE: R316303

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S803 Written request for registration of cancellation of provisional registration

Free format text: JAPANESE INTERMEDIATE CODE: R316805

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R314531

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S804 Written request for registration of cancellation of exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R314803

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250