JP2009522895A - バイノーラルオーディオ信号の復号 - Google Patents
バイノーラルオーディオ信号の復号 Download PDFInfo
- Publication number
- JP2009522895A JP2009522895A JP2008549032A JP2008549032A JP2009522895A JP 2009522895 A JP2009522895 A JP 2009522895A JP 2008549032 A JP2008549032 A JP 2008549032A JP 2008549032 A JP2008549032 A JP 2008549032A JP 2009522895 A JP2009522895 A JP 2009522895A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- channel
- audio
- binaural
- side information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012546 transfer Methods 0.000 claims abstract description 25
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 101100311460 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sum2 gene Proteins 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 19
- 230000008901 benefit Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000009877 rendering Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
バイノーラルオーディオ信号を合成するための方法であって、本方法は、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を入力することと、バイノーラルオーディオ信号を合成するために、対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用することと、を含む。
【選択図】図3
【選択図】図3
Description
本発明は、空間オーディオ符号化(Spatial Audio Coding)に関し、より具体的には、バイノーラルオーディオ信号(Binaural Audio Signal)の復号に関する。
本出願は、2006年1月9日に出願された国際出願第PCT/FI2006/050014号、2006年1月17日に出願された米国出願第11/334,041号、および2006年2月13日に出願された米国出願第11/354,211号に基づく優先権を主張する。
空間オーディオ符号化において、異なるオーディオチャンネル上で再生されるべきオーディオ信号がそれぞれ異なることにより、2チャンネル/マルチチャンネルオーディオ信号を処理することによって、音源周辺の空間効果の印象がリスナーにもたらされる。空間効果は、マルチチャンネルまたはバイノーラル再生の適切なフォーマットに直接オーディオを録音することによって生成可能である。あるいは、空間効果は、いかなる2チャンネル/マルチチャンネルオーディオ信号においても人工的に生成可能であり、空間化(Spatialization)として知られている。
ヘッドフォンの再生に関し、リスナーの左耳および右耳用のバイノーラル信号を生成する頭部伝達関数(Head Related Transfer Function; HRTF)フィルタリングによって、人工的に空間化を行うことができることは一般的に知られている。音源信号は、その音源の方向に対応するHRTFから得られるフィルタでフィルタリングされる。HRTFは、自由音場における音源から人間の耳または人工の頭部まで測定される伝達関数であり、頭部と置換され、かつ頭部の中に配置されるマイクに対する伝達関数によって割られる。人工的室内効果(例えば、早期反射および/または後期残響)を空間化信号に加えることによって、音源の外在化(Externalization)および自然性(Naturalness)を改善できる。
多種多様なオーディオ聴音装置および相互作用装置が増加するにつれ、その互換性がより重要になってきた。空間オーディオフォーマットにおいては、アップミックス(upmix)およびダウンミックス(downmix)技術によって互換性を追求している。Dolby Digital(r)およびDolby Surround(r)などのステレオフォーマットにマルチチャンネルオーディオ信号を変換し、さらに、ステレオ信号をバイノーラル信号に変換するためのアルゴリズムが存在することは一般的に知られている。しかしながら、このような処理において、元のマルチチャンネルオーディオ信号の空間イメージは、完全には再生できない。ヘッドフォンリスニングのためのマルチチャンネルオーディオ信号を変換する改善方法として、HRTFフィルタリングを使用することによって元のスピーカを仮想スピーカに置換し、それら(例えば、Dolby Headphone(r))を介してスピーカチャンネル信号を再生することが挙げられる。しかしながら、この処理は、バイノーラル信号生成に関し、常にマルチチャンネルミックスを最初に必要とするという不利点を有する。つまり、マルチチャンネル(例えば、5+1チャンネル)信号が、最初に復号および合成され、続いてバイノーラル信号を生成するためにHRTFが各信号に適用される。これは、圧縮されたマルチチャンネルフォーマットからバイノーラルフォーマットに直接復号することに比べ、計算的に重いアプローチになる。
バイノーラルキュー符号化(Binaural Cue Coding; BCC)は、高度なパラメトリック空間オーディオ符号化方法である。BCCは、単一の(またはいくつかの)ダウンミックスされたオーディオチャンネルと、オリジナルの信号からの周波数および時間の関数として推定された1組の知覚関連のチャンネル間差として、空間マルチチャンネル信号を表現する。この方法によって、任意のスピーカ配置が、同数または異なる数のスピーカを含むその他のいかなるスピーカ配置にも変換されるようにミックスされた空間オーディオ信号が可能になる。
従って、BCCは、マルチチャンネルスピーカシステムのために設計される。しかしながら、BCC処理されたモノラル信号およびそのサイド情報からバイノーラル信号を生成する場合、モノラル信号およびサイド情報に基づいてマルチチャンネル表現がまず合成された後に、そのマルチチャンネル表現から空間ヘッドフォン再生のためのバイノーラル信号が生成可能となりうる。このアプローチであっても、バイノーラル信号生成を考慮すると、最適化されていないことは明らかである。
バイノーラル信号の生成が、パラメトリック符号化されたオーディオ信号から直接可能になるように改良された方法と、その方法を実行する技術装置が発明される。本発明の種々の側面は、復号方法、復号器、装置、およびコンピュータプログラムを含み、これらは、以下に一般的且つ詳細に開示される事項よって特徴付けられる。本発明の種々の実施形態についても開示される。
第1の側面によると、本発明に従う方法は、バイノーラルオーディオ信号を合成する次のような概念に基づく。まず、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を、入力する。この少なくとも1つの結合信号は、複数のサブ帯域に分割され、サブ帯域のパラメータ値はサイド情報の組によって決定される。次に、バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用する。
実施形態によっては、前記パラメータ値は、前記サイド情報の組によって提供される次の及び前のパラメータ値へ、特定のサブ帯域に対応するパラメータ値を補間することによって決定される。
実施形態によっては、前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルスピーカ配置の各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組が、選択され適用される。
実施形態によっては、前記サイド情報の組は、オリジナルの音響イメージを表現する、前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む。
実施形態によっては、オリジナルのマルチチャンネルオーディオの推定利得を、時間および周波数の関数として決定し、各利得値の二乗の和が1に等しくなるように、スピーカチャンネル毎の前記利得を調整する。
実施形態によっては、前記頭部伝達関数フィルタを適用する前に、QMFサブ帯域、等価方形幅(Equivalent Rectangular Bandwidth; ERB)の複数のサブ帯域、心理音響学的に導かれた複数のサブ帯域、のいずれかのサブ帯域に、前記少なくとも1つの結合信号を分割する。
実施形態によっては、前記パラメータ値は、少なくとも1つのサブ帯域の利得値である。
マルチチャンネル 実施形態によっては、サブ帯域の利得値を決定するステップは、オリジナルの音響イメージを表現するマルチチャンネルオーディオの各チャンネル信号の利得値を決定することと、複数のサブ帯域のための単一の利得値を、前記各チャンネル信号の利得値から補間することと、を含む。
実施形態によっては、サブ帯域のバイノーラル信号の周波数領域における表現は、前記少なくとも1つの結合信号に、少なくとも1つの利得値と所定の頭部伝達関数フィルタを乗ずることにより得られる。
本発明に従う構成により有意な利点がもたらされる。主な利点は、復号処理の簡素化および計算複雑性の低下である。また、復号器は、符号化器が提供する空間および符号化パラメータに基づいてバイノーラル合成を完全に実行するという点において、柔軟性を有する。さらに、オリジナルの信号と同等の空間性が変換において維持される。サイド情報に関しては、オリジナルミックスの推定利得の組で十分である。より重要なことに、本発明により、パラメトリックオーディオ符号化においてもたらされる圧縮中間状態の活用の強化が可能になり、オーディオの伝送および保存における効果が改善される。サイド情報からサブ帯域の利得値が決定されるとすれば、ある周波数帯域から他の周波数帯域にかけての利得値の変化が緩やかになることにより、バイノーラル出力信号の品質が改善されうる。また、フィルタリング処理が著しく簡略化される。
本発明のさらなる側面は、上記方法の発明ステップを実行するように構成された種々の装置を含む。
以下において、本発明の種々の実施形態について、添付の図面を参照してより詳細に説明する。
バイノーラルキュー符号化(Binaural Cue Coding; BCC)を、実施形態に従う復号スキームを実行するための例示的な基盤として言及することによって、本発明を以下に説明する。しかしながら、本発明は、BCC型の空間オーディオ符号化方法だけに限定されず、1つ以上のオーディオチャンネルの組のオリジナルから結合された少なくとも1つのオーディオ信号と、適切な空間サイド情報とが用意される、いかなるオーディオ符号化スキームにおいても実行可能であることに留意されたい。
バイノーラルキュー符号化(Binaural Cue Coding; BCC)は、空間オーディオのパラメータ表現に関する一般概念であり、単一のオーディオチャンネルといくつかのサイド情報から任意の数のチャンネルを有するマルチチャンネル出力を提供するものである。図1は、本概念を示す。いくつかの入力オーディオチャンネル(M)は、ダウンミックス処理によって単一出力(S;「サム」)信号に結合される。並行して、マルチチャンネル音響イメージを表現する最重要なチャンネル間キューが、入力チャンネルから抽出され、BCCサイド情報(BCC side information)としてコンパクトに符号化される。次に、サム信号およびサイド情報は、例えばサム信号を符号化するための適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。最終的に、BCC復号器は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの関連チャンネル間キューを有するチャンネル出力信号を再合成することによって、伝送されたサム信号および空間キュー情報から、スピーカのマルチチャンネル出力信号(N)を生成する。従って、BCCサイド情報、つまりチャンネル間キューは、特にスピーカ再生のためのマルチチャンネルオーディオ信号の復元の最適化を考慮して選択される。
2つのBCCスキームが存在する。1つは、受信側でレンダリングする目的で多数の異なる音源信号を伝送する、フレキシブルレンダリング(Flexible Rendering)に関するBCC(I型BCC)であり、もう1つは、ステレオまたはサラウンド信号の多数のオーディオチャンネルを伝送する、ナチュラルレンダリング(Natural Rendering)(II型BCC)に関するBCCである。フレキシブルレンダリングに関するBCCは、複数の異なる音源信号(例えば、スピーチ信号、別々に録音された楽器、マルチトラック録音)を入力として使用する。ナチュラルレンダリングに関するBCCは、「完全にミックスされた(final mix)」ステレオまたはマルチチャンネル信号(例えば、CDオーディオ、DVDサラウンド)を入力として使用する。これらの処理が、従来の符号化技術によって実行される場合、ビットレートは、オーディオチャンネルの数に比例して、または少なくともほぼ比例して増減する。例えば、5.1マルチチャンネルシステムの6つのオーディオチャンネルを伝送するには、1つのオーディオチャンネルの約6倍のビットレートが必要になる。しかしながら、BCCサイド情報は非常に低いビットレート(例えば、2kb/s)しか必要としないため、両BCCスキームのビットレートは、結果的に、1つのオーディオチャンネルの伝送に必要なビットレートよりも若干高くなるだけである。
図2は、BCC合成スキームの一般構造を示す。伝送されたモノラル信号("Sum")は、まず、時間領域において窓掛けが行なわれてフレームに分割され、次に、高速フーリエ変換(Fast Fourier Transform; FFT)処理およびフィルタバンク(filterbank; FB)によって、適切なサブ帯域の空間表現にマップされる。再生チャンネルの一般的場合において、ICLDおよびICTDは、対のチャンネル間、つまり、参照チャンネルに対する各チャンネルの各サブ帯域において考慮される。サブ帯域は、十分高い周波数分解能が達成されるように選択される。例えば、等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールの2倍に等しいサブ帯域幅が一般的に適切であると考えられる。生成される出力チャンネル毎に、個々の時間遅延ICTDおよびレベル差ICLDが、スペクトル係数に課され、その後、コヒーレンス合成処理により、合成されたオーディオチャンネル間のコヒーレンスおよび/または相関(ICC)に関する最重要側面を再導入する。最終的に、合成された全出力チャンネルは、IFFT処理(逆FFT)によって時間領域表現に再び変換され、マルチチャンネル出力をもたらす。BCCアプローチに関するさらに詳しい説明は、下記非特許文献1及び2を参照されたい。
F. Baumgarte and C. Faller: "Binaural Cue Coding - Part I: Psy-choacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003 C. Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003
F. Baumgarte and C. Faller: "Binaural Cue Coding - Part I: Psy-choacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003 C. Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003
BCCは、符号化スキームの一例であり、この符号化スキームにより、実施形態に従う復号スキームを実行するための適切な基盤が提供される。ある実施形態に従うバイノーラル復号器は、モノラル化信号およびサイド情報を入力として受信する。この概念は、元のミックス状態における各スピーカを、リスニング位置に対するスピーカの方向に対応するHRTFの組に置換することである。モノラル化信号における各周波数チャンネルは、利得値の組によって決定付けられる割合でHRTFを実行する各対のフィルタに渡される。この利得値は、サイド情報に基づき計算可能である。その結果、この処理は、バイノーラルオーディオシーンにおいて、元のスピーカに対応する1組の仮想スピーカを実装するものとして考えられることが可能である。従って、本発明は、種々のスピーカ配置のマルチチャンネルオーディオ信号の他に、いかなる中間BCC合成処理もせずに、パラメトリック符号化された空間オーディオ信号から直接にバイノーラルオーディオ信号を導き出すことを可能にすることによって、BCCに価値を加える。
本発明のいくつかの実施形態について、図3を参照して以下に説明する。図3は、本発明のある側面に従うバイノーラル復号器のブロック図を示す。復号器300は、モノラル化信号の第1の入力302と、サイド情報の第2の入力304とを含む。入力302、304は、実施形態を説明する上でそれぞれ異なる入力として示されるが、当業者は、実際の実装において、モノラル化信号およびサイド情報が同一の入力によって供給可能であることを理解されたい。
実施形態によっては、サイド情報は、BCCスキームと同じチャンネル間キュー、つまり、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)を含む必要はなく、その代わりに、各周波数帯域における元のミックス状態におけるチャンネル間の音圧分布を規定する推定利得の組のみで十分である。推定利得の他に、サイド情報は、元のミックス状態におけるスピーカの数およびリスニング位置に対する位置、ならびに使用されたフレーム長を含むことが好ましい。実施形態によっては、サイド情報の一部として推定利得を符号化器から伝送する代わりに、推定利得は、BCCスキームのチャンネル間キュー、例えば、ICLDから復号器において計算される。
復号器300は、窓掛け部306をさらに備え、ここで、モノラル化信号は、まず、使用されたフレーム長の時間フレームに分割され、次に、フレームに窓掛けが適切に行なわれる(例えば、サイン窓)。適切なフレーム長を調整することによって、フレームが、離散フーリエ変換(discrete Fourier-transform; DFT)のために十分長くなるようにし、また同時に、信号の急速な変化を管理するために十分短くなるようにするべきである。実験によると、適切なフレーム長は約50msである。従って、44.1kHzのサンプリング周波数(種々のオーディオ符号化スキームで通常使用される)を使用する場合、フレームは、例えば、46.4msのフレーム長をもたらす2048個のサンプルを含むことができる。窓掛けは、スペクトル変形(レベルおよび遅延)による遷移を円滑化するために、隣接する窓が50%重複するように実行することが好ましい。
その後、窓掛けされたモノラル化信号は、FFT部308において周波数領域に変換される。効果的に計算するために、処理は周波数領域において実行される。信号処理の前回のステップを実際の復号器300の外部で実行してもよいこと、つまり、窓掛け部306およびFFT部308は、この復号器が実装される装置側に実装されてもよく、処理されるモノラル化信号は、復号器に供給される際には既に窓掛けされ、周波数領域に変換されてもよいことを、当業者は理解するだろう。
周波数領域化された信号を効率的に計算するために、信号は、フィルタバンク310に導かれ、フィルタバンク310は、心理音響学的に導かれた周波数帯域に信号を分割する。実施形態によっては、フィルタバンク310は、一般的に認知される等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールに従い32個の周波数帯域に信号を分割し、結果的に、その32個の周波数帯域に信号成分x0、…、x31をもたらすように構成するように設計される。
復号器300は、事前に保存された情報としてHRTF312、314の組を含み、ここから各スピーカ方向に対応する左右の組のHRTFが選択される。説明上、図3には2組のHRTF312、314が描かれており、一方の組は左側信号であり、他方の組は右側信号であるが、実際の実装において、1組のHRTFでも十分であることは明らかである。選択された左右の組のHRTFを、各スピーカチャンネルのオーディオレベルに対応するように調整するためには、利得値Gを推定することが好ましい。上述のように、推定利得は符号化器から受信したサイド情報に含めてもよく、あるいは、BCCサイド情報に基づき復号器において計算してもよい。利得は、時間および周波数の関数としてスピーカチャンネル毎に推定されるが、元のミックス状態における利得レベルを維持するために、スピーカチャンネル毎の利得を調整して、各利得値の二乗の合計が1に等しくすることが好ましい。これにより、仮想的に生成されるチャンネルの数がN個である場合、符号化器から伝送する必要がある推定利得はN-1個だけであり、不足利得値をN-1個の利得値に基づき計算可能である、という利点がもたらされる。しかしながら当業者は、本発明の動作において、復号器は、各利得値の二乗の合計を1に等しくなるように調整する必要は必ずしもないが、合計を1に等しくするように利得値の二乗を増減可能であることを理解されたい。
次に、HRTFフィルタ312、314の左右の組の各々を、利得Gの組によって決定される割合で調整し、HRTFフィルタ312'、314'を得る。実際には、元のHRTFフィルタの大きさ312、314は、利得値に応じて単に増減されるだけであるが、実施形態を説明する上で、HRTF312'、314'の組が図3において「付加的に」示されていることを再び留意されたい。
各周波数帯域について、モノラル信号成分x0、…、x31が、調整されたHRTFフィルタ312'、314'の各左右の組に提供される。次に、左側信号および右側信号のフィルタ出力は、両バイノーラルチャンネルの加算部316、318において加算される。加算されたバイノーラル信号は、再びサイン窓掛けが行なわれ、IFFT部320、322で実行される逆FFT処理によって、時間領域に再び変換される。分析フィルタが1つの信号にまとめない場合、あるいはその位相応答が線形でない場合、適切な合成フィルタバンクを使用して、最終的なバイノーラル信号BRおよびBLにおける歪みを回避することが好ましい。
実施形態によっては、バイノーラル信号の外在化、つまり頭外定位を向上させるために、適度な室内応答をバイノーラル信号に加えることが可能である。そのために、復号器は、残響部を備えてもよい。この残響部は、加算部316、318とIFFT部320、322の間に位置することが好ましい。付加された室内応答は、スピーカリスニング状況における室内効果を模倣する。しかしながら、必要とされる残響時間は、計算複雑性が顕著に増加しないように十分短くする。
また、図3のバイノーラル復号器300によって、ステレオダウンミックス復号という特別の例が可能になる。この場合、空間イメージは狭められる。上記実施形態において、調整可能な各HRTFフィルタ312、314は、利得値に応じて単に増減されていたが、その利得値が既定の利得に置換されるように、復号器300の動作を修正する。従って、モノラル化信号は、サイド情報に基づいて計算された利得値の組を乗じた単一の利得を含む、コンスタントなHRTFフィルタによって処理される。結果的に、空間オーディオは、ステレオ信号にダウンミックスされる。この特別の例により、空間オーディオを復号することなく、空間サイド情報を使用して結合信号からステレオ信号を生成できるという利点がもたらされる。従って、ステレオ復号の手順が従来のBCC合成よりも簡素化される。バイノーラル復号器300の構造は、調整可能なHRTFフィルタ312、314がステレオダウンミックスのための既定の利得を有するダウンミックスフィルタと置換されること以外は、図3と同じである。
バイノーラル復号器が、HRTFフィルタ、例えば、5.1サラウンドオーディオ構成を備える場合、ステレオダウンミックス復号の特別の例について、HRTFフィルタのコンスタントな利得は、例えば、表1に規定される。
本発明に従う構成により有意な利点がもたらされる。主な利点は、復号処理の簡素化および計算複雑性の低下である。また、復号器は、符号化器が提供する空間および符号化パラメータに基づいてバイノーラルアップミックスを完全に実行するという点において、柔軟性を有する。さらに、元の信号について同等の空間性が変換において維持される。サイド情報に関しては、元のミックスにおける推定利得の組で十分である。オーディオの伝送または保存の観点から見ると、最も有意な利点は、パラメトリックオーディオ符号化においてもたらされる圧縮中間状態を利用する際の効率改善によって得られる。
HRTFは個々の差が大きく平均化が不可能であるため、完全な再空間化(re-spatialization)は、リスナー独自のHRTF組を測定することによってのみ達成されうることを、当業者は理解しているだろう。従って、HRTFの使用により信号は必然的にゆがみ、処理されたオーディオの質が、元の質と同等でなくなる。しかしながら、各リスナーのHRTFを測定することは非現実的な選択であるため、モデル化された組あるいは人頭模型または平均サイズおよび顕著な対称性を有する頭部を有する者から測定された組を使用する際に、最善の結果が達成される。
前述のように、実施形態によっては、推定利得は、符号化器から受信するサイド情報に含まれてもよい。結果的に、本発明のある側面は、マルチチャンネル空間オーディオ信号の符号化器に関し、この符号化器は、周波数および時間の関数としてスピーカチャンネル毎の利得を推定し、1つ(または複数の)結合チャンネル上で伝送されるサイド情報に推定利得を含める。符号化器は、例えば、既知のBCC符号化器であってもよく、この符号化器は、マルチチャンネル音響イメージを表現するチャンネル間キューであるICTD、ICLD、およびICCに付加的にまたは代替的に、推定利得を計算するようにさらに構成される。次に、サム信号および推定利得を少なくとも含むサイド情報は、好ましくは、サム信号を符号化する適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。
実施形態によっては、符号化器において推定利得を計算する場合、その計算は、個々のチャンネル毎の利得レベルを、結合チャンネルの累積利得レベルと比較することによって実行される。つまり、利得レベルをX、元のスピーカ配置における個々のチャンネルを「m」、サンプルを「k」とする場合、チャンネル毎の推定利得は│Xm(k)│/│XSUM(k)│で計算される。従って、推定利得は、全チャンネルの全ての利得の大きさと比較して、個々のチャンネル毎の利得の大きさを比例的に決定する。
実施形態によっては、BCCサイド情報に基づき復号器において推定利得を計算する場合、その計算は、例えば、チャンネル間レベル差(ICLD)の値に基づき実行されてもよい。従って、仮想的に生成される「スピーカ」の数をN個とする場合、N-1個の未知変数を含むN-1個の数式を、ICLD値に基づきまず作成する。次に、各スピーカ数式の二乗の和を1に等しくなるように設定することによって、1つの独立チャンネルの推定利得を解くことが可能になり、その解かれた推定利得に基づいて、残りの推定利得をN-1個の数式から解くことができる。
例えば、仮想的に生成されるチャンネルの数が5の場合(N=5)、N-1個の数式は、L2=L1+ICLD1、L3=L1+ICLD2、L4=L1+ICLD3、およびL5=L1+ICLD4と作成されることができる。次に、それらの二乗の和が1に等しくなるように設定される。つまり、L12+ (L1+ICLD1)2 + (L1+ICLD2)2 + (L1+ICLD3)2 + (L1+ICLD4)2 = 1となるようにする。次に、L1の値を解くことが可能であり、L1に基づき、残りの利得レベル値L2〜L5を解くことができる。
実施形態によっては、本発明の基本的なアイディア、すなわち、はじめにマルチチャンネルフォーマットに復号することなく、バイノーラル信号をパラメトリックに符号化されたオーディオ信号から直接生成するというアイディアは、推定利得の組を使ってそれらを各周波数サブ帯域に適用する代わりに、サイド情報ビットストリームのチャンネルレベル情報(channel level information;ICLD)部分だけをサム信号と共に用いてバイノーラル信号を構成することによっても実装することができる。
この場合、復号器で推定利得の組を定義したり、符号化器においてBCCサイド情報に推定利得を含めたりする代わりに、各オリジナルチャンネルについて、普通のBCCサイド情報のチャンネルレベル情報(ICLD)部分が、時間及び周波数の関数として、復号器において適切に処理される。元のサム信号は適切な周波数ビンに分割され、これらの周波数ビンの利得はチャンネルレベル情報から得られる。この処理は、ある周波数帯域から他の周波数帯域にかけての利得値の変化が緩やかにすることにより、バイノーラル出力信号の品質をさらに向上させることを可能とする。
この実施形態における処理の初めの段階は、前述の実施形態と同様である。すなわち、モノラル又はステレオのサム信号とサイド情報とが復号器に入力され、そのサム信号は使用されるフレーム長の時間フレームへ分割され、続いてサイン窓関数などにより適当に窓掛けされる。解析のため、再び50%オーバーラップの正弦窓が用いられ、時間領域の信号を周波数領域へ効果的に変換するために、FFTが用いられた。もし解析窓の長さがNサンプルであり、窓の50%がオーバーラップするのであれば、周波数領域において、N/2の周波数ビンが得られる。この実施形態では、ERBスケールに従うサブ帯域のような心理音響学的に導かれた周波数帯域に信号を分割する代わりに、上述の周波数ビンが処理に用いられる。
前述のように、BCC符号化器のサイド情報は、各独立チャンネルを得るためにサム信号がどのようにスケーティングされるべきかの情報を提供する。利得情報は、一般的に、特定の時間及び周波数位置についてのみ提供される。時間方向では、利得値は、例えば2048サンプルに一度だけ提供される。本実施形態の既存のために、各正弦窓の中央及び各周波数ビンにおいて利得値が必要である。(すなわち、各正弦窓の中央でN/2個の利得値が必要である。)これは、補間処理により効果的に実現しうる。代わりに、サイド情報により定められる時刻に利得情報が提供され、一つのフレームの中の当該時刻の数も当該サイド情報により得られる。このような代替実装において、利得値は当該時刻の情報及び利得値が更新された時刻の数に基づいて補間される。
BCCマルチチャンネル符号化器が、時刻tm, m = 0, 1, 2, ….に、Nq個の利得値を供給するとしよう。現在の時刻tw(現在の正弦窓の中央)に関し、BCCマルチチャンネル符号化器によって得られる次及び前の利得値の組が検索される。これらをtprev及びtnext表そう。例のために線形補間を用いると、Ng個の利得値が時刻twへと補間され、twからtprev及びtnextへの距離がスケーリングファクターとして補間処理に用いられる。他の実施形態では、時刻twに近い利得値(tprevまたはtnext)が、単に選択される。これは、よく近似された利得値を決定するためのより簡単な方法を提供する。
現在の時刻においてNg個の利得値の組が決定されると、これらは周波数方向で補間され、N/2個の周波数ビンのそれぞれに対して個々に利得値が求められる。この処理を行なうには、単純な線形補間を用いることが可能である。しかしながら、たとえばsinc補間などを使うこともできる。一般的に、Ng個の利得値は、低い周波数で高い分解能を与え(分解能は例えばERBスケールに従う)、このことは補完処理において考慮されねばならない。補間処理は線形的や対数的に行うことができる。補間された利得の組の数は、マルチチャンネル復号器の出力チャンネルの数にサム信号の数を乗じたものに等しい。
さらに、バイノーラル信号を構築するには、オリジナルのスピーカーの方向のHRTFが必要である。HRTFも周波数領域に変換される。周波数領域の処理を単純にするために、その変換には、サム信号を時間領域から周波数領域(N/2の周波数ビン)に変換するために用いられたものと同じフレーム長(Nサンプル)が用いられる。
バイノーラル信号の左と右の信号の周波数領域における表現を、Y1(n)及びY2(n)としよう。サム信号が一つの場合(すなわちモノラル化されたサム信号Xsum1(n)の場合)、バイノーラル出力は次のように構築される。
ここで、0≦n<N/2であり、cはBCCマルチチャンネル符号化器における全チャンネル数(たとえば5.1オーディオ信号であれば6チャンネル)、g1 c(n)は、現在時刻twにおいてモノラルサム信号からチャンネルcを構築するための補間された利得値である。H1 c(n)とH2 c(n)は、マルチチャンネル符号化器の出力チャンネルcについての、左耳及び右耳のHRTFのDFT領域の表現である。すなわち、各オリジナルチャンネルの方向は既知でなくてはならない。
ここで、0≦n<N/2であり、cはBCCマルチチャンネル符号化器における全チャンネル数(たとえば5.1オーディオ信号であれば6チャンネル)、g1 c(n)は、現在時刻twにおいてモノラルサム信号からチャンネルcを構築するための補間された利得値である。H1 c(n)とH2 c(n)は、マルチチャンネル符号化器の出力チャンネルcについての、左耳及び右耳のHRTFのDFT領域の表現である。すなわち、各オリジナルチャンネルの方向は既知でなくてはならない。
BCCマルチチャンネル符号化器から供給されるサム信号が2つ(ステレオサム信号)であるとき、どちらのサム信号(Xsum1(n)及びXsum2(n))も、両方のバイノーラル出力に次のように影響を及ぼす。
ここで、0≦n<N/2である。またg1 c(n)及びg2 c(n)、はマルチチャンネル符号化器において、その和として出力チャンネルcを構築するために、左及び右のサム信号ために用いられる利得を表している。
ここで、0≦n<N/2である。またg1 c(n)及びg2 c(n)、はマルチチャンネル符号化器において、その和として出力チャンネルcを構築するために、左及び右のサム信号ために用いられる利得を表している。
処理の後段は、やはり前述のものと同様である。すなわち、Y1(n)とY2(n)が逆FFT処理によって時間領域へと再変換され、信号がサイン窓関数によりもう一度窓掛けされ、オーバーラップ窓関数が適用される。
この実施形態の主な利点は、ある周波数ビンから別の周波数ビンへと、利得が急激には変化しないことである。このような事態は、ERBやその他のサブ帯域が用いられるときに生じる。これによって、バイノーラル出力信号の品質は一般的には向上する。さらに、左耳と右耳のHRTFの表現として、マルチチャンネルオーディオの各チャンネルのHFTFの特定の左右ペアの代わりに、累積DFT領域(summed-up DFT domain)の表現(H1 c(n)、H2 c(n))を用いることにより、フィルタリング処理が著しく簡単になる。
この実施形態において、バイノーラル信号はDFT領域で構築され、フィルタバンクによってERBスケールに従って信号をサブ帯域へ分割することは省略することができる。実装においていかなるフィルタバンクも必要でないとはいえ、当業者は、DFT以外の変換方法や十分に高い周波数分解能を有するフィルタバンク構造が用いられてもよいことを理解するであろう。そのような場合においては、用いられるフィルタバンクや変換の特性の組に基づいてHRTFフィルタリングが実行されるように、構築式Y1(n) 及び Y2(n)が修正されねばない。
例えば、QMFフィルタバンクが適用される場合、周波数分解能はQMFサブ帯域により定義される。もし、Ng個の利得値の組がQMF サブ帯域の数より少ない場合は、各サブ帯域のための利得を得るために、当該利得値が補間される。例えば、サイド情報において、ある与えられた時刻において28の周波数帯域に対応する28の利得値が得られるとして、これらは、105のQMFサブ帯域にマップされることができる。この場合において、隣接する狭いサブ帯域で急激な変化が生じることを避けるために、非線形または線形の補間が行われる。その後、上に説明した、左右バイノーラル信号の周波数領域表現のための式(Y1(n), Y2(n))が適用されるがただし、H1 c(n) と H2 c(n)は、マトリクス形式のQMFドメインのHRTFフィルタとなり、Xsum1(n)はモノラル化された信号のブロックとなる。ステレオサム信号の場合、HFTFフィルタは変換マトリクスの形式であり、Xsum1(n) と Xsum2(n)は、それぞれ二つのサム信号のブロックである。QMFドメインにおける実際のフィルタリングの実装の例が、次の非特許文献3に説明されている。
IEEE 0-7803-5041-3/99, Lanciani C. A. et al.: "Subband domain filtering of MPEG audio signals
IEEE 0-7803-5041-3/99, Lanciani C. A. et al.: "Subband domain filtering of MPEG audio signals
簡素化するため、前述の例の殆どは、入力チャンネル(M)が符号化器においてダウンミックスされて単一の結合(例えば、モノラル)チャンネルを形成するように説明される。しかしながら、実施形態は、特定のオーディオ処理用途に応じて、多数の入力チャンネル(M)が、ダウンミックスされて2つ以上の別々の結合チャンネル(S)を形成するような代替的な実装においても同様に適用可能である。ダウンミックスにより多数の結合チャンネルが生成される場合、結合チャンネルデータは、従来のオーディオ伝送技術を使用して伝送可能である。例えば、2つの結合チャンネルが生成される場合、従来のステレオ伝送技術を使用してもよい。この場合、上述の最後の実施例に関して示されたように、BCC復号器は、BCC符号を抽出および使用して、2つの結合チャンネルからバイノーラル信号を合成できる。
実施形態によっては、合成されたバイノーラル信号における仮想的に生成された「スピーカ」の数(N)は、特定用途に応じて、入力チャンネル(M)の数と異なってもよい(多くても少なくてもよい)。例えば、入力オーディオが7.1サラウンドオーディオに相当し、バイノーラル出力オーディオが5.1サラウンドオーディオに相当するように合成されてもよく、または、その反対でもよい。
上記実施形態は、次のように一般化されることができる。すなわち、本発明の実施形態は、M個の入力オーディオチャンネルをS個の結合オーディオチャンネルおよび1つ以上の対応するサイド情報の組に変換可能にするものであり(M>S)また、S個の結合オーディオチャンネルおよび対応するサイド情報の組からN個の出力オーディオチャンネルを生成するものである(N>S)。Nは、Mと等しくとも異なっていてもよい。
1つの結合チャンネルおよび必要なサイド情報を伝送するのに必要なビットレートは非常に低いため、本発明は、特に、利用可能な帯域幅が無線通信システムなどのリソースが乏しいシステムに十分適用可能である。従って、実施形態は、特に、高品質のスピーカを一般的に含まない携帯端末またはその他の携帯型装置に適用可能であり、この場合、マルチチャンネルサラウンドオーディオの特徴は、実施形態に従うバイノーラルオーディオ信号を聴くためのヘッドフォンを介して導入可能である。実行可能な用途のさらなる分野には、テレビ会議サービスが含まれる。この場合、電話会議出席者が会議室の異なる位置に居るという印象をリスナーに与えることによって、テレビ会議の出席者を容易に区別することができる。
図4は、データ処理装置(TE)の簡素化構造を示す。このデータ処理装置において、本発明に従うバイノーラル復号システムを実装することが可能である。データ処理装置(TE)は、例えば、携帯端末、MP3プレーヤー、PDA装置、またはパーソナルコンピュータ(PC)であることが可能である。データ処理ユニット(TE)は、I/O手段(I/O)、中央処理装置(CPU)、およびメモリ(MEM)を備える。メモリ(MEM)は、ランダムアクセスメモリRAMおよびFLASHメモリなどの、読取専用メモリROM部分および再書き込み可能部分を備える。CD-ROM、その他の装置、およびユーザなどの様々な外部装置と通信するために使用される情報は、I/O手段(I/O)を介して中央処理装置(CPU)によって送受信される。データ処理装置が移動局として実装される場合、データ処理装置は、一般的に送受信機Tx/Rxを備え、この送受信機Tx/Rxは、無線線ネットワークと通信し、一般的にはアンテナを介して基地局(BTS)と通信する。ユーザインターフェース(UI)機器は、一般的に、ディスプレイ、キーパッド、マイク、およびヘッドフォン用接続手段を備える。データ処理装置は、種々のハードウェアモジュール用または集積回路ICとしての標準型スロットなどの接続手段MMCをさらに備えて、データ処理装置において実行される種々のアプリケーションを提供してもよい。
従って、本発明に従うバイノーラル復号システムは、データ処理装置の中央処理装置(central processing unit; CPU)または専用のデジタル信号プロセッサ(digital signal processor; DSP)(パラメトリック符号化プロセッサ)において実行されてもよい。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を受信する。パラメトリック符号化されたオーディオ信号は、CD-ROMなどのメモリ手段から、あるいはアンテナおよび送受信機を介した無線ネットワークから受信されてもよい。データ処理装置は、適切なフィルタバンクおよび頭部伝達関数フィルタの既定の組をさらに備える。従って、データ処理装置は、結合信号を周波数領域に変換し、頭部伝達関数フィルタの適切な左右の組を、対応するサイド情報の組によって決定される割合で結合信号に適用することによって、バイノーラルオーディオ信号を合成し、ヘッドフォンを介して再生する。
同様に、本発明に従う符号化システムも、データ処理装置の中央処理装置(CPU)または専用のデジタル信号プロセッサ(DSP)において実行されることができる。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネルオーディオのチャンネル信号の推定利得を含む1つ以上の対応するサイド情報の組とを含むパラメトリック符号化されたオーディオ信号を生成する。
本発明の機能は、移動局などの端末装置において実装されてもよく、また、コンピュータプログラムとして実装されてもよい。このコンピュータプログラムは、中央処理装置CPUまたは専用のデジタル信号プロセッサDSPにおいて実行されると、本発明の手順を実行するように端末装置に作用する。コンピュータプログラムSWの機能は、相互に通信するいくつかの別々のプログラム要素に分散されてもよい。コンピュータソフトウェアは、PCのハードディスクまたはCD-ROMディスクなど如何なるメモリ手段にも保存されてもよく、そこから携帯端末のメモリにロード可能である。また、コンピュータソフトウェアは、例えば、TCP/IPプロトコルスタックを使用してネットワークを介してロード可能である。
また、ハードウェアソリューションあるいはハードウェアおよびソフトウェアソリューションの組み合わせを使用して、発明の手段を実行することも可能である。従って、上記のコンピュータプログラムは、モジュールを電子装置に接続するための接続手段を備えるハードウェアモジュールにおける例えばASICまたはFPGA回路などのハードウェアソリューションとして、あるいは1つ以上の集積回路として、少なくとも部分的に実装可能である。このハードウェアモジュールまたはICは、上記プログラムコードタスクを実行するための種々の手段をさらに含み、また、上記手段は、ハードウェアおよび/またはソフトウェアとして実装される。
本発明は、上に提示された実施形態だけに限定されないが、添付の請求項の範囲内で修正可能であることは、当業者であれば誰にでも明らかであろう。
Claims (33)
- バイノーラルオーディオ信号を合成するための方法であって、
複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含む、パラメトリック符号化されたオーディオ信号を入力することと、
前記少なくとも1つの結合信号を複数のサブ帯域へ分割することと、
前記サイド情報の組からサブ帯域のためのパラメータ値を決定することと、
バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用することと、
を含む、方法。 - 前記パラメータ値は、特定のサブ帯域に対応するパラメータ値を、前記サイド情報の組によって提供される次及び前のパラメータ値から補間することによって決定される、請求項1に記載の方法。
- 前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルオーディオの各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組を適用すること、
をさらに含む、請求項1又は2に記載の方法。 - 前記サイド情報の組は、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、
請求項1から3のいずれかに記載の方法。 - 前記サイド情報の組は、オリジナルのマルチチャンネル音響イメージにおけるスピーカの数およびリスニング位置に対する位置と、使用されるフレーム長とをさらに含む、
請求項4に記載の方法。 - 前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューを含み、
前記BCCスキームの前記チャンネル間キューのうちの少なくとも1つに基づき、オリジナルのマルチチャンネルオーディオにおける推定利得の組を計算すること、
をさらに含む、請求項3に記載の方法。 - オリジナルのマルチチャンネルオーディオにおける前記推定利得の組を、時間および周波数の関数として決定することと、
各利得値の二乗の和が1に等しくなるように、スピーカチャンネル毎に利得を調整することと、
をさらに含む、請求項4から6のいずれかに記載の方法。 - 前記少なくとも1つの結合信号を、次のサブ帯域:
・ 複数のQMFサブ帯域
・ 複数の(Equivalent Rectangular Bandwidth; ERB)サブ帯域
・ 心理音響学的に導かれた複数の周波数帯域
のいずれかに分割することをさらに含む、請求項1に記載の方法。 - 前記少なくとも1つの結合信号を、周波数領域おいて、等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールに従う32個の周波数帯域に分割すること、
をさらに含む、請求項8に記載の方法。 - 左側信号及び右側信号の各々について、各前記周波数帯域における前記頭部伝達関数フィルタの出力をそれぞれ加算することと、
バイノーラルオーディオ信号の左側成分および右側成分を生成するために、前記加算された左側信号と前記加算された右側信号とを、時間領域に変換することと、
をさらに含む、請求項9に記載の方法。 - 前記パラメータ値は、少なくとも1つのサブ帯域の利得値である、請求項1に記載の方法。
- 前記利得値は、前記サイド情報により提供される利得値のうち最も近いものを選択することにより決定される、請求項11に記載の方法。
- 前記少なくとも1つの結合信号を複数のサブ帯域へ分割することは、さらに、
前記少なくとも1つの結合信号を、所定の数のサンプルを含む時間フレームへ分割すると共にそれらのフレームに窓関数を掛けることと、
複数の周波数サブ帯域を形成すべく、前記少なくとも1つの結合信号を周波数領域へと変化することと、
を含む、請求項11又は12に記載の方法。 - サブ帯域のために利得値を決定することは、さらに、
オリジナルの音響イメージを表現するマルチチャンネルオーディオの各チャンネル信号の利得値を決定することと、
複数のサブ帯域のための単一の利得値を、前記各チャンネル信号の利得値から補間することと、
を含む、請求項11から13のいずれかに記載の方法。 - サブ帯域のバイノーラル信号の周波数領域における表現を、前記少なくとも1つの結合信号に、少なくとも1つの利得値と所定の頭部伝達関数フィルタを乗ずることにより得る、請求項11から14のいずれかに記載の方法。
- 前記利得値は、特定の周波数サブ帯域に対応する各利得値は、前記サイド情報により提供される、隣接する周波数サブ帯域の利得値から補間することにより決定される、請求項11に記載の方法。
- 複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含む、パラメトリック符号化されたオーディオ信号を処理するためのパラメトリック符号化プロセッサと、
前記少なくとも1つの結合信号を複数のサブ帯域へ分割する手段と、
前記サイド情報の組からサブ帯域のためのパラメータ値を決定する手段と、
バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用するための合成器と、
を備える、パラメトリックオーディオ復号器。 - 前記パラメータ値は、特定のサブ帯域に対応するパラメータ値を、前記サイド情報の組によって提供される次及び前のパラメータ値から補間することによって決定される、請求項19に記載の復号器。
- 前記合成器は、前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルオーディオの各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組を適用するように構成される、
請求項19又は20に記載の復号器。 - 前記サイド情報の組は、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、
請求項19から21のいずれかに記載の復号器。 - 前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューを含み、
前記BCCスキームの前記チャンネル間キューのうちの少なくとも1つに基づき、オリジナルのマルチチャンネルオーディオにおける推定利得の組を計算する、
請求項21に記載の復号器。 - 前記少なくとも1つの結合信号を、次のサブ帯域:
・ 複数のQMFサブ帯域
・ 複数の(Equivalent Rectangular Bandwidth; ERB)サブ帯域
・ 心理音響学的に導かれた複数の周波数帯域
のいずれかに分割する手段をさらに備える、請求項19に記載の復号器。 - 前記少なくとも1つの結合信号を周波数領域において分割する前記手段は、前記少なくとも1つの結合信号を、等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールに従う32個の周波数帯域に分割するように構成されるフィルタバンクを備える、
請求項24に記載の復号器。 - 左側信号及び右側信号の各々について、各前記周波数帯域における前記頭部伝達関数フィルタの出力をそれぞれ加算するための加算部と、
バイノーラルオーディオ信号の左側成分および右側成分を生成するために、前記加算された左側信号と前記加算された右側信号とを、時間領域に変換するための変換部と、
をさらに備える、請求項25に記載の復号器。 - 前記パラメータ値は、少なくとも1つのサブ帯域の利得値である、請求項19に記載の復号器。
- 前記利得値は、前記サイド情報により提供される利得値のうち最も近いものを選択することにより決定される、請求項27に記載の復号器。
- 前記サブ帯域のために利得値を決定する手段は、
オリジナルの音響イメージを表現するマルチチャンネルオーディオの各チャンネル信号の利得値を決定し、
複数のサブ帯域のための単一の利得値を、前記各チャンネル信号の利得値から補間する、
ように構成される、請求項27又は28に記載の復号器。 - サブ帯域のバイノーラル信号の周波数領域における表現を、前記少なくとも1つの結合信号に、少なくとも1つの利得値と所定の頭部伝達関数フィルタを乗ずることにより定めるように構成される、請求項27から29のいずれかに記載の復号器。
- コンピュータ可読媒体に保存され、かつデータ処理装置において実行可能であるコンピュータプログラムであって、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を処理するために、
前記少なくとも1つの結合信号を複数のサブ帯域に変換するためのコンピュータプログラムコード部分と、
前記サイド情報の組からサブ帯域のためのパラメータ値を決定するためのコンピュータプログラムコード部分と、
バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用するためのコンピュータプログラムコード部分と、
を備える、コンピュータプログラム。 - バイノーラルオーディオ信号を合成する装置であって、
複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含む、パラメトリック符号化されたオーディオ信号を入力する手段と、
前記少なくとも1つの結合信号を複数のサブ帯域へ分割する手段と、
前記サイド情報の組からサブ帯域のためのパラメータ値を決定する手段と、
バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用する手段と、
前記バイノーラルオーディオ信号をオーディオ再生手段に供給する手段と、
を備える、装置。 - 前記装置は、携帯端末、PDA装置、またはパーソナルコンピュータである、請求項32に記載の装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/FI2006/050014 WO2007080211A1 (en) | 2006-01-09 | 2006-01-09 | Decoding of binaural audio signals |
US11/334,041 US20070160218A1 (en) | 2006-01-09 | 2006-01-17 | Decoding of binaural audio signals |
US11/354,211 US20070160219A1 (en) | 2006-01-09 | 2006-02-13 | Decoding of binaural audio signals |
PCT/FI2007/050005 WO2007080225A1 (en) | 2006-01-09 | 2007-01-04 | Decoding of binaural audio signals |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009522895A true JP2009522895A (ja) | 2009-06-11 |
Family
ID=38232768
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008549032A Pending JP2009522895A (ja) | 2006-01-09 | 2007-01-04 | バイノーラルオーディオ信号の復号 |
JP2008549031A Pending JP2009522894A (ja) | 2006-01-09 | 2007-01-04 | バイノーラルオーディオ信号の復号 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008549031A Pending JP2009522894A (ja) | 2006-01-09 | 2007-01-04 | バイノーラルオーディオ信号の復号 |
Country Status (11)
Country | Link |
---|---|
US (2) | US20070160218A1 (ja) |
EP (2) | EP1972180A4 (ja) |
JP (2) | JP2009522895A (ja) |
KR (3) | KR20080074223A (ja) |
CN (2) | CN101366081A (ja) |
AU (2) | AU2007204332A1 (ja) |
BR (2) | BRPI0722425A2 (ja) |
CA (2) | CA2635985A1 (ja) |
RU (2) | RU2409912C9 (ja) |
TW (2) | TW200746871A (ja) |
WO (1) | WO2007080211A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011509588A (ja) * | 2008-01-01 | 2011-03-24 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
JP2011509591A (ja) * | 2008-01-01 | 2011-03-24 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
JP2012513700A (ja) * | 2008-12-22 | 2012-06-14 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 送信効果処理による出力信号の生成 |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
EP1905002B1 (en) * | 2005-05-26 | 2013-05-22 | LG Electronics Inc. | Method and apparatus for decoding audio signal |
KR100803212B1 (ko) * | 2006-01-11 | 2008-02-14 | 삼성전자주식회사 | 스케일러블 채널 복호화 방법 및 장치 |
WO2007083952A1 (en) * | 2006-01-19 | 2007-07-26 | Lg Electronics Inc. | Method and apparatus for processing a media signal |
EP1984913A4 (en) * | 2006-02-07 | 2011-01-12 | Lg Electronics Inc | DEVICE AND METHOD FOR CODING / DECODING A SIGNAL |
KR101358700B1 (ko) * | 2006-02-21 | 2014-02-07 | 코닌클리케 필립스 엔.브이. | 오디오 인코딩 및 디코딩 |
KR100773560B1 (ko) * | 2006-03-06 | 2007-11-05 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
KR100754220B1 (ko) | 2006-03-07 | 2007-09-03 | 삼성전자주식회사 | Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법 |
US8392176B2 (en) | 2006-04-10 | 2013-03-05 | Qualcomm Incorporated | Processing of excitation in audio coding and decoding |
EP2030199B1 (en) * | 2006-05-30 | 2009-10-28 | Koninklijke Philips Electronics N.V. | Linear predictive coding of an audio signal |
US8027479B2 (en) | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
FR2903562A1 (fr) * | 2006-07-07 | 2008-01-11 | France Telecom | Spatialisation binaurale de donnees sonores encodees en compression. |
US20090313029A1 (en) * | 2006-07-14 | 2009-12-17 | Anyka (Guangzhou) Software Technologiy Co., Ltd. | Method And System For Backward Compatible Multi Channel Audio Encoding and Decoding with the Maximum Entropy |
KR100763920B1 (ko) * | 2006-08-09 | 2007-10-05 | 삼성전자주식회사 | 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치 |
FR2906099A1 (fr) * | 2006-09-20 | 2008-03-21 | France Telecom | Procede de transfert d'un flux audio entre plusieurs terminaux |
JP2010516077A (ja) * | 2007-01-05 | 2010-05-13 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
EP2119306A4 (en) * | 2007-03-01 | 2012-04-25 | Jerry Mahabub | SOUND SPECIALIZATION AND ENVIRONMENT SIMULATION |
US8295494B2 (en) * | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
US8428957B2 (en) | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
US8126172B2 (en) * | 2007-12-06 | 2012-02-28 | Harman International Industries, Incorporated | Spatial processing stereo system |
US9025775B2 (en) * | 2008-07-01 | 2015-05-05 | Nokia Corporation | Apparatus and method for adjusting spatial cue information of a multichannel audio signal |
KR101230691B1 (ko) * | 2008-07-10 | 2013-02-07 | 한국전자통신연구원 | 공간정보 기반의 다객체 오디오 부호화에서의 오디오 객체 편집 방법 및 그 장치 |
CA2871498C (en) * | 2008-07-11 | 2017-10-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder and decoder for encoding and decoding audio samples |
CN102138176B (zh) * | 2008-07-11 | 2013-11-06 | 日本电气株式会社 | 信号分析装置、信号控制装置及其方法 |
KR101614160B1 (ko) | 2008-07-16 | 2016-04-20 | 한국전자통신연구원 | 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치 |
EP2146522A1 (en) | 2008-07-17 | 2010-01-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating audio output signals using object based metadata |
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
KR101499785B1 (ko) | 2008-10-23 | 2015-03-09 | 삼성전자주식회사 | 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법 |
WO2010058931A2 (en) * | 2008-11-14 | 2010-05-27 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
US20100137030A1 (en) * | 2008-12-02 | 2010-06-03 | Motorola, Inc. | Filtering a list of audible items |
KR101496760B1 (ko) * | 2008-12-29 | 2015-02-27 | 삼성전자주식회사 | 서라운드 사운드 가상화 방법 및 장치 |
CN105225667B (zh) | 2009-03-17 | 2019-04-05 | 杜比国际公司 | 编码器***、解码器***、编码方法和解码方法 |
CN101556799B (zh) * | 2009-05-14 | 2013-08-28 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
US9888335B2 (en) * | 2009-06-23 | 2018-02-06 | Nokia Technologies Oy | Method and apparatus for processing audio signals |
US8434006B2 (en) * | 2009-07-31 | 2013-04-30 | Echostar Technologies L.L.C. | Systems and methods for adjusting volume of combined audio channels |
CN102667923B (zh) | 2009-10-20 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法 |
EP3998606B8 (en) | 2009-10-21 | 2022-12-07 | Dolby International AB | Oversampling in a combined transposer filter bank |
CA2786944C (en) * | 2010-01-12 | 2016-03-15 | Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries |
US20130166307A1 (en) * | 2010-09-22 | 2013-06-27 | Dolby Laboratories Licensing Corporation | Efficient Implementation of Phase Shift Filtering for Decorrelation and Other Applications in an Audio Coding System |
EP2661912B1 (en) * | 2011-01-05 | 2018-08-22 | Koninklijke Philips N.V. | An audio system and method of operation therefor |
EP2676268B1 (en) * | 2011-02-14 | 2014-12-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
AU2012217215B2 (en) | 2011-02-14 | 2015-05-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for error concealment in low-delay unified speech and audio coding (USAC) |
TWI483245B (zh) | 2011-02-14 | 2015-05-01 | Fraunhofer Ges Forschung | 利用重疊變換之資訊信號表示技術 |
MY165853A (en) | 2011-02-14 | 2018-05-18 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
TR201903388T4 (tr) | 2011-02-14 | 2019-04-22 | Fraunhofer Ges Forschung | Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi. |
EP2676270B1 (en) | 2011-02-14 | 2017-02-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coding a portion of an audio signal using a transient detection and a quality result |
US20140056450A1 (en) * | 2012-08-22 | 2014-02-27 | Able Planet Inc. | Apparatus and method for psychoacoustic balancing of sound to accommodate for asymmetrical hearing loss |
MX347551B (es) | 2013-01-15 | 2017-05-02 | Koninklijke Philips Nv | Procesamiento de audio binaural. |
CN104919820B (zh) * | 2013-01-17 | 2017-04-26 | 皇家飞利浦有限公司 | 双耳音频处理 |
CN114566183A (zh) | 2013-04-05 | 2022-05-31 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN108810793B (zh) * | 2013-04-19 | 2020-12-15 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
CN108806704B (zh) | 2013-04-19 | 2023-06-06 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
AU2014280258B9 (en) | 2013-06-10 | 2017-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding |
MY170179A (en) | 2013-06-10 | 2019-07-09 | Fraunhofer Ges Forschung | Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding |
US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
CN110634494B (zh) * | 2013-09-12 | 2023-09-01 | 杜比国际公司 | 多声道音频内容的编码 |
TWI713018B (zh) | 2013-09-12 | 2020-12-11 | 瑞典商杜比國際公司 | 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統 |
EP3806498B1 (en) | 2013-09-17 | 2023-08-30 | Wilus Institute of Standards and Technology Inc. | Method and apparatus for processing audio signal |
US9143878B2 (en) * | 2013-10-09 | 2015-09-22 | Voyetra Turtle Beach, Inc. | Method and system for headset with automatic source detection and volume control |
US10204630B2 (en) | 2013-10-22 | 2019-02-12 | Electronics And Telecommunications Research Instit Ute | Method for generating filter for audio signal and parameterizing device therefor |
CN113630711B (zh) | 2013-10-31 | 2023-12-01 | 杜比实验室特许公司 | 使用元数据处理的耳机的双耳呈现 |
CN104681034A (zh) | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
CN108922552B (zh) | 2013-12-23 | 2023-08-29 | 韦勒斯标准与技术协会公司 | 生成用于音频信号的滤波器的方法及其参数化装置 |
CA3162763A1 (en) * | 2013-12-27 | 2015-07-02 | Sony Corporation | Decoding apparatus and method, and program |
CN104768121A (zh) * | 2014-01-03 | 2015-07-08 | 杜比实验室特许公司 | 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频 |
MX365162B (es) | 2014-01-03 | 2019-05-24 | Dolby Laboratories Licensing Corp | Generacion de audio binaural en respuesta a audio multicanal utilizando al menos una red de retardo realimentada. |
US9832585B2 (en) | 2014-03-19 | 2017-11-28 | Wilus Institute Of Standards And Technology Inc. | Audio signal processing method and apparatus |
KR102428066B1 (ko) * | 2014-04-02 | 2022-08-02 | 주식회사 윌러스표준기술연구소 | 오디오 신호 처리 방법 및 장치 |
EP3128766A4 (en) * | 2014-04-02 | 2018-01-03 | Wilus Institute of Standards and Technology Inc. | Audio signal processing method and device |
US9860666B2 (en) | 2015-06-18 | 2018-01-02 | Nokia Technologies Oy | Binaural audio reproduction |
EA034936B1 (ru) | 2015-08-25 | 2020-04-08 | Долби Интернешнл Аб | Кодирование и декодирование звука с использованием параметров преобразования представления |
ES2818562T3 (es) * | 2015-08-25 | 2021-04-13 | Dolby Laboratories Licensing Corp | Descodificador de audio y procedimiento de descodificación |
US10672408B2 (en) * | 2015-08-25 | 2020-06-02 | Dolby Laboratories Licensing Corporation | Audio decoder and decoding method |
US10152977B2 (en) * | 2015-11-20 | 2018-12-11 | Qualcomm Incorporated | Encoding of multiple audio signals |
CN105611481B (zh) * | 2015-12-30 | 2018-04-17 | 北京时代拓灵科技有限公司 | 一种基于空间声的人机交互方法和*** |
GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
EP3550561A1 (en) | 2018-04-06 | 2019-10-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value |
ES2966686T3 (es) | 2018-04-27 | 2024-05-29 | Sherpa Europe S L | Asistente digital |
EP3588495A1 (en) | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
CN110956973A (zh) * | 2018-09-27 | 2020-04-03 | 深圳市冠旭电子股份有限公司 | 一种回声消除方法、装置及智能终端 |
GB2580360A (en) * | 2019-01-04 | 2020-07-22 | Nokia Technologies Oy | An audio capturing arrangement |
AU2020291190B2 (en) | 2019-06-14 | 2023-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Parameter encoding and decoding |
US11212631B2 (en) * | 2019-09-16 | 2021-12-28 | Gaudio Lab, Inc. | Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor |
CN111031467A (zh) * | 2019-12-27 | 2020-04-17 | 中航华东光电(上海)有限公司 | 一种hrir前后方位增强方法 |
AT523644B1 (de) * | 2020-12-01 | 2021-10-15 | Atmoky Gmbh | Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5521981A (en) * | 1994-01-06 | 1996-05-28 | Gehring; Louis S. | Sound positioner |
WO1999014983A1 (en) * | 1997-09-16 | 1999-03-25 | Lake Dsp Pty. Limited | Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener |
JP2000197195A (ja) * | 1998-12-22 | 2000-07-14 | Texas Instr Inc <Ti> | 3次元音をスピ―カから放射するシステムおよび方法 |
JP2001511995A (ja) * | 1997-12-13 | 2001-08-14 | セントラル リサーチ ラボラトリーズ リミティド | オーディオ信号処理方法 |
US20030026441A1 (en) * | 2001-05-04 | 2003-02-06 | Christof Faller | Perceptual synthesis of auditory scenes |
US20030219130A1 (en) * | 2002-05-24 | 2003-11-27 | Frank Baumgarte | Coherence-based audio coding and synthesis |
JP2004048741A (ja) * | 2002-06-24 | 2004-02-12 | Agere Systems Inc | オーディオミキシングのための等化技術 |
WO2004077884A1 (en) * | 2003-02-26 | 2004-09-10 | Helsinki University Of Technology | A method for reproducing natural or modified spatial impression in multichannel listening |
WO2005048653A1 (en) * | 2003-11-12 | 2005-05-26 | Lake Technology Limited | Audio signal processing system and method |
WO2005059899A1 (en) * | 2003-12-19 | 2005-06-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimised variable frame length encoding |
JP2005520219A (ja) * | 2002-09-19 | 2005-07-07 | 松下電器産業株式会社 | オーディオ復号装置およびオーディオ復号方法 |
JP2005229612A (ja) * | 2004-02-12 | 2005-08-25 | Agere Systems Inc | 聴覚情景の後部残響音ベースの合成 |
JP2005533271A (ja) * | 2002-07-16 | 2005-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5173944A (en) * | 1992-01-29 | 1992-12-22 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Head related transfer function pseudo-stereophony |
JP3286869B2 (ja) * | 1993-02-15 | 2002-05-27 | 三菱電機株式会社 | 内部電源電位発生回路 |
JP3498375B2 (ja) * | 1994-07-20 | 2004-02-16 | ソニー株式会社 | ディジタル・オーディオ信号記録装置 |
US6072877A (en) * | 1994-09-09 | 2000-06-06 | Aureal Semiconductor, Inc. | Three-dimensional virtual audio display employing reduced complexity imaging filters |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US8340302B2 (en) * | 2002-04-22 | 2012-12-25 | Koninklijke Philips Electronics N.V. | Parametric representation of spatial audio |
SE0301273D0 (sv) * | 2003-04-30 | 2003-04-30 | Coding Technologies Sweden Ab | Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
-
2006
- 2006-01-09 WO PCT/FI2006/050014 patent/WO2007080211A1/en active Application Filing
- 2006-01-17 US US11/334,041 patent/US20070160218A1/en not_active Abandoned
- 2006-02-13 US US11/354,211 patent/US20070160219A1/en not_active Abandoned
-
2007
- 2007-01-04 CA CA002635985A patent/CA2635985A1/en not_active Abandoned
- 2007-01-04 EP EP07700269A patent/EP1972180A4/en not_active Withdrawn
- 2007-01-04 KR KR1020087016569A patent/KR20080074223A/ko active Search and Examination
- 2007-01-04 KR KR1020107026739A patent/KR20110002491A/ko not_active Application Discontinuation
- 2007-01-04 BR BRPI0722425-7A2A patent/BRPI0722425A2/pt not_active IP Right Cessation
- 2007-01-04 RU RU2008126699/09A patent/RU2409912C9/ru not_active IP Right Cessation
- 2007-01-04 JP JP2008549032A patent/JP2009522895A/ja active Pending
- 2007-01-04 JP JP2008549031A patent/JP2009522894A/ja active Pending
- 2007-01-04 CN CNA2007800020681A patent/CN101366081A/zh active Pending
- 2007-01-04 BR BRPI0706306-7A patent/BRPI0706306A2/pt not_active IP Right Cessation
- 2007-01-04 RU RU2008127062/09A patent/RU2409911C2/ru not_active IP Right Cessation
- 2007-01-04 CA CA002635024A patent/CA2635024A1/en not_active Abandoned
- 2007-01-04 EP EP07700270A patent/EP1971979A4/en not_active Withdrawn
- 2007-01-04 KR KR1020087016638A patent/KR20080078882A/ko not_active Application Discontinuation
- 2007-01-04 AU AU2007204332A patent/AU2007204332A1/en not_active Abandoned
- 2007-01-04 CN CNA2007800020893A patent/CN101366321A/zh active Pending
- 2007-01-04 AU AU2007204333A patent/AU2007204333A1/en not_active Abandoned
- 2007-01-08 TW TW096100650A patent/TW200746871A/zh unknown
- 2007-01-08 TW TW096100651A patent/TW200727729A/zh unknown
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5521981A (en) * | 1994-01-06 | 1996-05-28 | Gehring; Louis S. | Sound positioner |
WO1999014983A1 (en) * | 1997-09-16 | 1999-03-25 | Lake Dsp Pty. Limited | Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener |
JP2001517050A (ja) * | 1997-09-16 | 2001-10-02 | レイク テクノロジー リミティド | リスナーの周囲にある音源の空間的ひろがり感を増強するためのステレオヘッドホンデバイス内でのフィルタ効果の利用 |
JP2001511995A (ja) * | 1997-12-13 | 2001-08-14 | セントラル リサーチ ラボラトリーズ リミティド | オーディオ信号処理方法 |
JP2000197195A (ja) * | 1998-12-22 | 2000-07-14 | Texas Instr Inc <Ti> | 3次元音をスピ―カから放射するシステムおよび方法 |
US20030026441A1 (en) * | 2001-05-04 | 2003-02-06 | Christof Faller | Perceptual synthesis of auditory scenes |
US20030219130A1 (en) * | 2002-05-24 | 2003-11-27 | Frank Baumgarte | Coherence-based audio coding and synthesis |
JP2004048741A (ja) * | 2002-06-24 | 2004-02-12 | Agere Systems Inc | オーディオミキシングのための等化技術 |
JP2005533271A (ja) * | 2002-07-16 | 2005-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
JP2005520219A (ja) * | 2002-09-19 | 2005-07-07 | 松下電器産業株式会社 | オーディオ復号装置およびオーディオ復号方法 |
WO2004077884A1 (en) * | 2003-02-26 | 2004-09-10 | Helsinki University Of Technology | A method for reproducing natural or modified spatial impression in multichannel listening |
WO2005048653A1 (en) * | 2003-11-12 | 2005-05-26 | Lake Technology Limited | Audio signal processing system and method |
JP2007511140A (ja) * | 2003-11-12 | 2007-04-26 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | オーディオ信号処理システム及び方法 |
WO2005059899A1 (en) * | 2003-12-19 | 2005-06-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimised variable frame length encoding |
JP2007529021A (ja) * | 2003-12-19 | 2007-10-18 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 忠実度最適化可変フレーム長符号化 |
JP2005229612A (ja) * | 2004-02-12 | 2005-08-25 | Agere Systems Inc | 聴覚情景の後部残響音ベースの合成 |
Non-Patent Citations (2)
Title |
---|
JPN7010002475, Julia Jakka, "Binaural to Multichannel Audio Upmix", Master’s Thesis, 20050606, 第34頁第6行−11行目, FI, Helsinki University of Technology * |
JPN7010002476, Christof Faller et al., "Binaural Cue Coding − Part II:Schemes and Applications", IEEE Transcations on speech and audio processing, 200311, Vol.11, No.6, IEEE * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011509588A (ja) * | 2008-01-01 | 2011-03-24 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
JP2011509591A (ja) * | 2008-01-01 | 2011-03-24 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
JP2011509590A (ja) * | 2008-01-01 | 2011-03-24 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
JP2012513700A (ja) * | 2008-12-22 | 2012-06-14 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 送信効果処理による出力信号の生成 |
Also Published As
Publication number | Publication date |
---|---|
US20070160218A1 (en) | 2007-07-12 |
CA2635024A1 (en) | 2007-07-19 |
RU2008127062A (ru) | 2010-02-20 |
KR20080078882A (ko) | 2008-08-28 |
KR20110002491A (ko) | 2011-01-07 |
CN101366081A (zh) | 2009-02-11 |
RU2008126699A (ru) | 2010-02-20 |
JP2009522894A (ja) | 2009-06-11 |
TW200727729A (en) | 2007-07-16 |
EP1972180A1 (en) | 2008-09-24 |
RU2409912C2 (ru) | 2011-01-20 |
CN101366321A (zh) | 2009-02-11 |
AU2007204332A1 (en) | 2007-07-19 |
EP1972180A4 (en) | 2011-06-29 |
EP1971979A4 (en) | 2011-12-28 |
US20070160219A1 (en) | 2007-07-12 |
BRPI0722425A2 (pt) | 2014-10-29 |
BRPI0706306A2 (pt) | 2011-03-22 |
RU2409912C9 (ru) | 2011-06-10 |
EP1971979A1 (en) | 2008-09-24 |
CA2635985A1 (en) | 2007-07-19 |
KR20080074223A (ko) | 2008-08-12 |
AU2007204333A1 (en) | 2007-07-19 |
WO2007080211A1 (en) | 2007-07-19 |
RU2409911C2 (ru) | 2011-01-20 |
TW200746871A (en) | 2007-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4944902B2 (ja) | バイノーラルオーディオ信号の復号制御 | |
US20200335115A1 (en) | Audio encoding and decoding | |
JP2009522895A (ja) | バイノーラルオーディオ信号の復号 | |
EP3122073B1 (en) | Audio signal processing method and apparatus | |
TWI415111B (zh) | 空間解碼器單元、空間解碼器裝置、音訊系統、消費型電子裝置、產生一對雙耳輸出聲道之方法及電腦可讀媒體 | |
JP5227946B2 (ja) | フィルタ適応周波数分解能 | |
EP3776544A1 (en) | Spatial audio parameters and associated spatial audio playback | |
WO2007080225A1 (en) | Decoding of binaural audio signals | |
RU2427978C2 (ru) | Кодирование и декодирование аудио | |
KR20080078907A (ko) | 양 귀 오디오 신호들의 복호화 제어 | |
WO2007080224A1 (en) | Decoding of binaural audio signals | |
MX2008008424A (es) | Decodificacion de señales de audio binaurales | |
MX2008008829A (en) | Decoding of binaural audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100811 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110125 |