JP2007187749A - New device for supporting head-related transfer function in multi-channel coding - Google Patents

New device for supporting head-related transfer function in multi-channel coding Download PDF

Info

Publication number
JP2007187749A
JP2007187749A JP2006004012A JP2006004012A JP2007187749A JP 2007187749 A JP2007187749 A JP 2007187749A JP 2006004012 A JP2006004012 A JP 2006004012A JP 2006004012 A JP2006004012 A JP 2006004012A JP 2007187749 A JP2007187749 A JP 2007187749A
Authority
JP
Japan
Prior art keywords
channel
stereo
signal
hrtf
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006004012A
Other languages
Japanese (ja)
Inventor
Yoshiaki Takagi
良明 高木
Sen Chon Kok
セン・チョン コク
Fan Zhou
ゾウ ファン
Takeshi Norimatsu
武志 則松
Shuji Miyasaka
修二 宮阪
Akihisa Kawamura
明久 川村
Koshiro Ono
耕司郎 小野
Kazuhiro Iida
一博 飯田
Motokuni Ito
元邦 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2006004012A priority Critical patent/JP2007187749A/en
Publication of JP2007187749A publication Critical patent/JP2007187749A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To attain surround sound effects without changing codec by adding support to multi-channel codec, resulting in reduction in development time and complexity for codec. <P>SOLUTION: Downmixing based on a head-related transfer function is supported by adding a preprocessing module to a coding device, and a deconvolution module to a decoding device. The preprocessing module processes a multi-channel signal including the head-related transfer function, and forms an intermediate input signal to the coding device. At the same time, the preprocessing module generates a stereo downmixing signal including an element signal necessary for attaining the surround sound effects. On the basis of side information transmitted from the preprocessing module, the deconvolution module effectively removes the head-related transfer function from an intermediate output signal of the decoding device in order to restore a desired multi-channel signal. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、マルチチャンネル符号化技術において、「サラウンド音響」効果を有するステレオダウンミックスを生成する新装置を提供する。この技術は、付加された情報でステレオダウンミックスを処理するだけで、ステレオ設備しか持っていないユーザに対して優れたサラウンド音響効果を配信するとともに、(5.1チャンネルのような)マルチチャンネル設備を持ったユーザに対しては真のサラウンド音響を復元することができる。本発明は、ホームシアターシステム、車載音響システム、携帯プレーヤ、携帯通信装置及び電子ゲームシステム等の用途に適用可能である   The present invention provides a new apparatus for generating a stereo downmix having a “surround sound” effect in a multi-channel coding technique. This technology simply processes the stereo downmix with the added information, delivers excellent surround sound effects to users who have only stereo equipment, and multichannel equipment (such as 5.1 channel) True surround sound can be restored for users with The present invention is applicable to uses such as a home theater system, an in-vehicle acoustic system, a portable player, a portable communication device, and an electronic game system.

図1は、1対のステレオ信号に対する空間音響符号化処理(マルチチャンネル符号化)の基本的原理を説明する図である。符号化処理において、音響信号はフレームごとに処理される。左右のチャンネルであるL及びRは、M=(L+R)/2を生成するために、(100)においてダウンミックスされる。L、R及びMは、バイノーラルキューの組を生成するために、バイノーラルキュー検出モジュール(102)によって処理される。あるいは、L及びRのスペクトル表現の平均をとることによって、スペクトル変換後のL及びRからMを生成することができる。バイノーラルキューは、L、R及びMの表現を比較することによって算出される。音響符号化装置(104)は、M信号を符号化して、圧縮されたビットストリームを生成する。この音響符号化装置の例としては、MP3やAACがある。バイノーラルキューは、完全なビットストリームを形成するために、(106)において、量子化され、圧縮されたMに多重化される。   FIG. 1 is a diagram for explaining the basic principle of spatial acoustic coding processing (multi-channel coding) for a pair of stereo signals. In the encoding process, the acoustic signal is processed for each frame. The left and right channels L and R are downmixed at (100) to produce M = (L + R) / 2. L, R, and M are processed by the binaural queue detection module (102) to generate a set of binaural queues. Alternatively, M can be generated from L and R after spectral conversion by averaging the spectral representations of L and R. Binaural cues are calculated by comparing L, R and M expressions. The acoustic encoding device (104) encodes the M signal to generate a compressed bit stream. Examples of this acoustic encoding device include MP3 and AAC. The binaural cues are quantized and multiplexed into the compressed M at (106) to form a complete bitstream.

バイノーラルキューは、チャンネル間レベル/強度差(IID)及びチャンネル間コヒーレンス/相関性(ICC)である。ICCキューが2つの信号間(この場合、左右のチャンネル)の類似性を測るのに対し、IIDキューは相対的な信号強度を測る。一般に、レベル/強度は、音のバランス/定位を制御するが、コヒーレンス/相関性キューは音の幅/拡散性を制御する。これらは共に受聴者が聴覚的情景を頭の中で構成するのを助ける空間パラメータである。最新の先行技術方法において、音響スペクトルは、通常複数の「パラメータバンド」からなるグループに区分されており、バイノーラルキューの組はそれぞれのパラメータバンドについて算出される。先行技術において、「バイノーラルキュー」と「空間パラメータ」という用語はしばしば同義的に用いられる。   Binaural cues are inter-channel level / intensity difference (IID) and inter-channel coherence / correlation (ICC). The ICC cue measures the similarity between two signals (in this case, the left and right channels), whereas the IID cue measures the relative signal strength. In general, the level / intensity controls the sound balance / location, while the coherence / correlation cue controls the sound width / diffusivity. These are both spatial parameters that help the listener compose an auditory scene in the head. In the latest prior art methods, the acoustic spectrum is usually divided into groups of a plurality of “parameter bands”, and a binaural cue set is calculated for each parameter band. In the prior art, the terms “binaural cue” and “spatial parameter” are often used interchangeably.

復号化処理において、多重分離装置(108)は、バイノーラルキュー情報から、Mのビットストリームを分離する。Mのビットストリームは、ダウンミックス信号Mを復元するために、音響復号化装置(110)によって復号化される。ダウンミックス信号と逆量子化バイノーラルキューは、ダウンミックス信号からステレオ信号を復元するために、マルチチャンネル合成モジュール(112)によって処理される。これらダウンミックス信号から元の2つの信号を復元する処理は、「チャンネル分離技術」を伴う。   In the decoding process, the demultiplexer (108) separates the M bit streams from the binaural queue information. The M bitstreams are decoded by the acoustic decoder (110) to recover the downmix signal M. The downmix signal and the dequantized binaural cue are processed by the multi-channel synthesis module (112) to recover the stereo signal from the downmix signal. The process of restoring the original two signals from these downmix signals involves a “channel separation technique”.

上記の例は、符号化装置においてどのように2つの信号を1つのダウンミックス信号と空間パラメータの組で表すことができ、空間パラメータでダウンミックス信号を処理することによって、復号化装置においてどのようにダウンミックス信号を2つの信号に分離することができるのかを説明しているにすぎない。この技術は、2チャンネルより多いオーディオ信号(例えば、5.1音源を構成する6つのチャンネル)を、符号化処理時に1つか2つのダウンミックスチャンネルに圧縮し、復号化処理においてそのチャンネルを再構築することにも拡大することができる。1チャンネルのダウンミックス信号については、図2を参照すると、再構築の秘訣としては、最初に、(204)においてダウンミックス信号L0を2つの信号M1、M4に分離するために、上記バイノーラルキューに基づいたチャンネル分離方法の変形を適用する。次に、(203)において信号M1がM2とM3に分離される。最後に、(200)および(201)において、上記バイノーラルキューの対を用いてM2とM3がさらに単一信号に分離される。さらに同様のモードで、信号M4が2つの単一サラウンド信号に分離される(ここで、Lf,Rf, Ls, Rs, C及びLFEは、それぞれ左前、右前、左横、右横、中央、及び低周波数を示す)。しかしながら、チャンネル分離技術の詳細は、本発明の範囲外である。このようにチャンネル分離の原理をマルチチャンネルに拡張することによって、図1に示されるコーデックは、図3に示されるようなマルチチャンネル処理に一般化することができる。 The above example shows how two signals can be represented in the encoding device as a set of one downmix signal and a spatial parameter, and how the downmix signal is processed by the spatial parameter in the decoding device. It only describes whether the downmix signal can be separated into two signals. This technology compresses more than 2 channels of audio signals (eg, 6 channels that make up a 5.1 sound source) into one or two downmix channels during the encoding process, and reconstructs those channels during the decoding process. Can also be expanded to do. For a one-channel downmix signal, referring to FIG. 2, the key to reconstruction is to first separate the downmix signal L 0 into two signals M 1 and M 4 in (204). Apply a variation of the channel separation method based on binaural cues. Then, the signal M 1 is separated into M 2 and M 3 in (203). Finally, at (200) and (201), M 2 and M 3 are further separated into single signals using the binaural cue pair. In a similar mode, the signal M 4 is separated into two single surround signals (where L f , R f , L s , R s , C and LFE are respectively left front, right front, left side, right Horizontal, center, and low frequency are shown). However, the details of the channel separation technique are outside the scope of the present invention. Thus, by extending the principle of channel separation to multi-channel, the codec shown in FIG. 1 can be generalized to multi-channel processing as shown in FIG.

先行技術において、(300)におけるステレオダウンミックスモジュールは、ITUダウンミックスのみをサポートする。つまり、ダウンミックス信号は入力信号の一定の倍数の和から導出される。例えば、

Figure 2007187749
In the prior art, the stereo downmix module at (300) supports only ITU downmix. That is, the downmix signal is derived from the sum of a certain multiple of the input signal. For example,
Figure 2007187749

現在、先行技術には「任意のダウンミキシング」の形態を可能にするものもあるが、符号化処理は、パラメータバンドごとにダウンミックス後の信号を任意に増幅もしくは減衰することしかできない。増幅又は減衰ファクタはビットストリーム情報の一部となる。頭部伝達関数(以下、HRTFという)に基づいたような、より高度なダウンミキシングの形態をサポート可能な先行技術は存在していない。   At present, some of the prior arts enable a form of “arbitrary downmixing”, but the encoding process can only arbitrarily amplify or attenuate the signal after downmixing for each parameter band. The amplification or attenuation factor becomes part of the bitstream information. There is no prior art that can support a more advanced form of downmixing based on the head-related transfer function (hereinafter referred to as HRTF).

HRTFは、特定の個人の左もしくは右耳の遠距離音場周波数応答を表すものであり、自由音場における特定の1点から外耳道における特定の1点にかけて測定される。上記バイノーラルの差異に基づいたキューは、受聴者の身体、頭部及び耳からの音響散乱処理によって主に引き起こされる。身体構造上の散乱と時間及びレベルの差異の全ての効果は、頭部インパルス応答(もしくはそのフーリエ変換、HRTF)フィルタ処理によって説明される。結果として、ステレオダウンミックスから優れた「サラウンド音響」を生成するために、異なる方向からのいくつかのHRTFによって、現実の音の散乱過程をシミュレートできることが期待される。具体的には、より多くのHRTFが探索されればされるほど、豊かなサラウンドコンテンツを認識することができる。   The HRTF represents the far field frequency response of the left or right ear of a particular individual and is measured from a specific point in the free sound field to a specific point in the ear canal. Cue based on the binaural difference is mainly caused by acoustic scattering from the listener's body, head and ears. All the effects of scattering and time and level differences on the body structure are explained by head impulse response (or its Fourier transform, HRTF) filtering. As a result, it is expected that real sound scattering processes can be simulated by several HRTFs from different directions in order to produce excellent “surround sound” from a stereo downmix. Specifically, as more HRTFs are searched, richer surround content can be recognized.

頭部伝達関数に基づいたダウンミキシングは、以下のように、マルチチャンネル入力信号を加算する前に、マルチチャンネル入力信号に伝達関数を適用する。   Down-mixing based on the head-related transfer function applies the transfer function to the multi-channel input signal before adding the multi-channel input signal as follows.

Figure 2007187749
Figure 2007187749

図4は、さまざまな記号の定義を示す図である。(400)から(405)はスピーカを示し、(406)は受聴者を示す。(407)及び(408)はそれぞれ受聴者の左耳及び右耳を示している。HL0/Lfは、「LfチャンネルからL0耳へのHRTF」等を表す。 FIG. 4 is a diagram showing definitions of various symbols. Reference numerals (400) to (405) denote speakers, and (406) denotes a listener. (407) and (408) respectively indicate the left ear and the right ear of the listener. H L0 / Lf represents “HRTF from L f channel to L 0 ear” or the like.

本発明の目的は、先行技術であるマルチチャンネル符号化技術にHRTFに基づいたダウンミキシング方法のサポートを追加することである。
J. Herre, et al, “The ReferenceModel Architecture for MPEG Spatial Audio Coding”, May 28-31, 2005, AudioEngineering Society 118th Convention, Paper No. 6447. 飯田一博他、「Spectral cueと両耳間Cueに基づいたParametric‐HRTF」、2-8-2、pp.461-462、2005年9月27日〜29日、日本音響学会秋季研究発表会。
An object of the present invention is to add support for a downmixing method based on HRTF to the prior art multi-channel coding technique.
J. Herre, et al, “The ReferenceModel Architecture for MPEG Spatial Audio Coding”, May 28-31, 2005, AudioEngineering Society 118th Convention, Paper No. 6447. Kazuhiro Iida et al., “Parametric-HRTF based on spectral cue and interaural cue”, 2-8-2, pp.461-462, September 27-29, 2005, Acoustical Society of Japan Autumn Meeting .

復号化装置において、追加的な後処理をおこなうことなく「サラウンド音響」効果を有するステレオ音響を配信するために、マルチチャンネル符号化技術はHRTFに基づいたダウンミキシング処理をサポートする必要がある。現在、マルチチャンネル符号化技術における先行技術では、それを達成することはできない。   In order to deliver stereo sound having a “surround sound” effect without additional post-processing in the decoding device, the multi-channel coding technique needs to support a down-mixing process based on HRTF. Currently, this cannot be achieved with prior art multi-channel coding techniques.

先行技術の符号化装置にプリプロセッシングモジュールを、先行技術の復号化装置にデコンボリューションモジュールを追加することによって、HRTFに基づいたダウンミキシングをサポートする簡単な方法を提案する。   A simple method is proposed to support HRTF-based downmixing by adding a preprocessing module to a prior art encoder and a deconvolution module to a prior art decoder.

プリプロセッシングモジュールはマルチチャンネル信号をHRTF処理し、先行技術の符号化装置への中間入力信号を形成する。一方で、プリプロセッシングモジュールは、「サラウンド音響」効果を実現するために必要な信号要素を備えるステレオダウンミックス信号を提供する。さらに、プリプロセッシングモジュールは、付加的HRTF情報および補助情報をサイド情報として伝送する。   The preprocessing module performs HRTF processing on the multi-channel signal to form an intermediate input signal to a prior art encoder. On the other hand, the preprocessing module provides a stereo downmix signal with the signal elements necessary to achieve a “surround sound” effect. Further, the preprocessing module transmits additional HRTF information and auxiliary information as side information.

中間出力信号は先行技術の復号化装置において再構築される。受信したサイド情報に基づき、デコンボリューションモジュールは、所望の出力信号を復元するために、中間出力信号からHRTFの効果を効果的に取り除くことができる。   The intermediate output signal is reconstructed in a prior art decoder. Based on the received side information, the deconvolution module can effectively remove the effect of HRTF from the intermediate output signal to restore the desired output signal.

HRTF情報はビットストリームの先頭に伝送され、補助情報はフレームからフレームへとビットストリーム内で連続的に伝送される。   The HRTF information is transmitted at the head of the bitstream, and the auxiliary information is continuously transmitted in the bitstream from frame to frame.

本発明は、マルチチャンネル音響符号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、HRTFプレミックスされた2組のマルチチャンネル信号と1対のステレオ信号とを生成するプリプロセッシング装置と、前記プレミックスマルチチャンネル音響信号のうち1組を1つの1チャンネル信号に変換するダウンミックス装置と、再構築情報を生成するために前記ダウンミックス処理を分析するバイノーラルキュー装置と、前記1対のステレオ信号をステレオビットストリームに符号化するステレオ音響符号化装置とを備え、
(a)プリプロセッシング装置において、前記マルチチャンネル音響信号に頭部伝達関数(HRTF)を2度適用して、2組のプレミックスマルチチャンネル音響信号をそれぞれ生成し、
(b)前記2組のマルチチャンネル音響信号をダウンミックスして、1対のステレオ信号を形成し、
(c)1組のプレミックスマルチチャンネル音響信号を、中間マルチチャンネル音響信号として前記マルチチャンネル音響符号化装置へ入力して、再構築情報を生成し、
(d)ダウンミックスステレオ信号をステレオ音響符号化装置に入力して、圧縮ステレオビットストリームを生成し、
(e)前記頭部伝達関数を付加的HRTF情報に変換し、量子化し、付加的サイド情報として伝送し、
(f)フレーム単位で、付加的補助情報を抽出し、量子化し、付加的サイド情報として伝送する
ことを特徴とする装置を提供する。
The present invention is an apparatus for realizing a stereo sound having a surround sound effect in a multi-channel sound encoding apparatus, and is a pre-set that generates two sets of multi-channel signals and a pair of stereo signals that are premixed with HRTF. A processing device, a downmix device that converts one set of the premixed multi-channel audio signals into a single one-channel signal, a binaural cue device that analyzes the downmix processing to generate reconstruction information, A stereo acoustic encoding device that encodes a pair of stereo signals into a stereo bitstream;
(A) In the preprocessing device, a head related transfer function (HRTF) is applied twice to the multichannel acoustic signal to generate two sets of premixed multichannel acoustic signals,
(B) Downmixing the two sets of multi-channel audio signals to form a pair of stereo signals;
(C) inputting a set of premix multi-channel audio signals as intermediate multi-channel audio signals to the multi-channel audio encoding device to generate reconstruction information;
(D) input the downmix stereo signal to a stereo acoustic encoder to generate a compressed stereo bitstream;
(E) converting the head-related transfer function into additional HRTF information, quantizing, and transmitting as additional side information;
(F) Provided is a device characterized in that additional auxiliary information is extracted, quantized, and transmitted as additional side information in units of frames.

本発明は、マルチチャンネル音響符号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、HRTFプレミックスされた2組のマルチチャンネル信号と1対のステレオ信号とを生成するプリプロセッシング装置と、前記プレミックスマルチチャンネル音響信号のうち1組を1つの1チャンネル信号に変換するダウンミックス装置と、再構築情報を生成するために前記ダウンミックス処理を分析するバイノーラルキュー装置と、前記1対のステレオ信号をステレオビットストリームに符号化するステレオ音響符号化装置とを備え、
(g)プリプロセッシング装置において、前記マルチチャンネル音響信号に頭部伝達関数(HRTF)を2度適用して、2組のプレミックスマルチチャンネル音響信号をそれぞれ生成し、
(h)前記2組のマルチチャンネル音響信号をダウンミックスして、1対のステレオ信号を形成し、
(i)前記2組のマルチチャンネル音響信号の和を求めて、新たな1組のマルチチャンネル音響信号とし、
(j)前記新たな1組のマルチチャンネル音響信号を、中間マルチチャンネル音響信号として前記マルチチャンネル音響符号化装置へ入力して、再構築情報を生成し、
(k)ダウンミックスステレオ信号をステレオ音響符号化装置に入力して、圧縮ステレオビットストリームを生成し、
(l)前記頭部伝達関数を付加的HRTF情報に変換し、量子化し、付加的サイド情報として転送し、
(m)フレーム単位で、付加的補助情報を抽出し、量子化し、付加的サイド情報として伝送する
ことを特徴とする装置を提供する。
The present invention is an apparatus for realizing a stereo sound having a surround sound effect in a multi-channel sound encoding apparatus, and is a pre-set that generates two sets of multi-channel signals and a pair of stereo signals that are premixed with HRTF. A processing device, a downmix device that converts one set of the premixed multi-channel audio signals into a single one-channel signal, a binaural cue device that analyzes the downmix processing to generate reconstruction information, A stereo acoustic encoding device that encodes a pair of stereo signals into a stereo bitstream;
(G) In the preprocessing device, a head related transfer function (HRTF) is applied twice to the multichannel acoustic signal to generate two sets of premixed multichannel acoustic signals,
(H) Downmixing the two sets of multi-channel audio signals to form a pair of stereo signals;
(I) calculating the sum of the two sets of multi-channel sound signals to obtain a new set of multi-channel sound signals;
(J) inputting the new set of multi-channel audio signals as intermediate multi-channel audio signals to the multi-channel audio encoding device to generate reconstruction information;
(K) The downmix stereo signal is input to a stereo audio encoding device to generate a compressed stereo bitstream;
(L) transforming the head-related transfer function into additional HRTF information, quantizing and transferring it as additional side information;
(M) Provided is a device characterized in that additional auxiliary information is extracted, quantized, and transmitted as additional side information in units of frames.

また、本発明は、マルチチャンネル音響復号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、ステレオビットストリームを復号しステレオ音響信号を形成するステレオ音響復号化装置と、前記内部的にダウンミックスしたマルチチャンネル信号に再構築情報を適用して中間マルチチャンネル音響信号を再構築するマルチチャンネル再構築装置と、前記マルチチャンネル音響信号を復元するポストプロセッシング装置とを備え、
(n)付加的HRTFにおけるHRTFをデコンボリューション情報に変換し、
(o)前記補助情報を用いてフレーム単位でデコンボリューション情報を更新し、
(p)前記更新されたデコンボリューション情報を前記再構築された中間マルチチャンネル音響信号に適用して、前記マルチチャンネル音響信号を復元する
ことを特徴とする装置を提供する。
Further, the present invention is an apparatus for realizing stereo sound having a surround sound effect in a multi-channel sound decoding apparatus, the stereo sound decoding apparatus for decoding a stereo bitstream to form a stereo sound signal, A multi-channel reconstruction device that reconstructs an intermediate multi-channel acoustic signal by applying reconstruction information to an internally downmixed multi-channel signal, and a post-processing device that restores the multi-channel acoustic signal,
(N) Convert HRTF in additional HRTF into deconvolution information,
(O) Update the deconvolution information in units of frames using the auxiliary information,
(P) Applying the updated deconvolution information to the reconstructed intermediate multi-channel acoustic signal to restore the multi-channel acoustic signal.

本発明の実施の形態のひとつにおいて、前記復元されたマルチチャンネル信号から情報を失う可能性が低くなるように、前記プリプロセッシング装置は前記プレミックスマルチチャンネル信号をミックスする。   In one embodiment of the present invention, the preprocessing device mixes the premix multichannel signal so that the possibility of losing information from the restored multichannel signal is reduced.

本発明の実施の形態のひとつにおいて、前記付加的HRTF情報は、伝達関数係数やスペクトルパラメータのような、前記マルチチャンネル音響復号化装置が前記HRTFを再構築するためのデータを含む。   In one embodiment of the present invention, the additional HRTF information includes data for the multi-channel acoustic decoding device to reconstruct the HRTF, such as transfer function coefficients and spectral parameters.

本発明の実施の形態のひとつにおいて、前記付加的補助情報は、前記マルチチャンネル音響復号化装置が前記HRTFをフレーム単位で動的に更新するためのデータを含む。   In one embodiment of the present invention, the additional auxiliary information includes data for the multi-channel audio decoding device to dynamically update the HRTF in units of frames.

本発明の別の実施の形態において、あるフレームの前記補助データは、直前のフレームの補助データと閾値の分だけ異なるということがない。   In another embodiment of the present invention, the auxiliary data of a certain frame does not differ from the auxiliary data of the previous frame by a threshold value.

本発明の別の実施の形態において、前記動的に更新されたデコンボリューションHRTFは、前記中間マルチチャンネル信号から前記HRTFを効果的に分離することができる。   In another embodiment of the invention, the dynamically updated deconvolution HRTF can effectively separate the HRTF from the intermediate multi-channel signal.

本発明の別の実施の形態において、前記デコンボリューション処理により前記プレミキシング処理を効果的に反転することができる。   In another embodiment of the present invention, the premixing process can be effectively reversed by the deconvolution process.

なお、本発明は、上記記載の装置に含まれるそれぞれの手段をステップとして備える方法、コンピュータにそれらステップを実行させるプログラム、及びそのようなプログラムが格納される記録媒体としても実現することができる。   Note that the present invention can also be realized as a method including the respective units included in the above-described apparatus as steps, a program for causing a computer to execute the steps, and a recording medium in which such a program is stored.

本発明は、HRTFに基づいたステレオダウンミックスの先行技術であるマルチチャンネルコーデックにサポートを追加することによって、コーデックを変化させることなく「サラウンド音響」効果を達成する。これは、コーデックにかかる開発時間及び複雑性を削減する。本発明はまた、先行技術であるマルチチャンネルコーデックによって対象となるマルチチャンネル信号を復元するために、HRTFを効果的に取り除いている。   The present invention achieves a “surround sound” effect without changing the codec by adding support to the multi-channel codec, which is the prior art of stereo downmix based on HRTF. This reduces the development time and complexity of the codec. The present invention also effectively removes the HRTF to restore the target multi-channel signal by the prior art multi-channel codec.

以下に示す実施の形態は、単に様々な進歩性の原理を説明しているにすぎない。ここに記載される詳細の変形は、当業者にとっては明らかであると理解される。よって、本発明は、特許請求項の範囲にのみ限定されるのであって、以下の具体的、説明的な詳細に限定されるものではないとする。   The embodiments described below merely illustrate various inventive principles. Variations on the details described herein will be apparent to those skilled in the art. Accordingly, it is intended that the present invention be limited only to the scope of the appended claims and not to the following specific, illustrative details.

HRTFに基づいた処理をサポートする上記先行技術マルチチャンネル符号化技術を拡大するために、本発明は、図5に示すように、プリプロセッシングモジュール(501)及びポストプロセッシングモジュール(502)を取り入れている。   In order to expand the above prior art multi-channel coding technology that supports HRTF based processing, the present invention incorporates a pre-processing module (501) and a post-processing module (502) as shown in FIG. .

全体として、プレプロセッシングモジュール(501)において、元のマルチチャンネル入力{Lf, Rf,C, LFE, Ls, Rs}は、HRTFに基づいたコンボリューションによりプレミックスされる。プレミックスの結果は、サラウンド符号化装置の中間入力{L'f, R'f, C', LFE', L's,R's}となる。サラウンド復号化装置の再構築中間出力{L"f, R"f, C", LFE", L"s,R"s}に対して、ポストプロセッシングモジュール(502)は、元のマルチチャンネル入力を復元するためにHRTFデコンボリューションをおこなう。 Overall, the preprocessing module (501), the original multichannel input {L f, R f, C , LFE, L s, R s} is premixed by convolution based on HRTF. The result of the premix is an intermediate input {L ′ f , R ′ f , C ′, LFE ′, L ′ s , R ′ s } of the surround encoder. For the reconstructed intermediate outputs {L " f , R" f , C ", LFE", L " s , R" s } of the surround decoder, the post-processing module (502) Perform HRTF deconvolution to restore.

本発明の実施の形態1では、元の入力は、以下のようにそれに対応するHRTFによりプレミックスされる。   In Embodiment 1 of the present invention, the original input is premixed by the corresponding HRTF as follows.

Figure 2007187749
Figure 2007187749

言い換えれば、プレミックスした結果はステレオチャンネルのうちの1つのチャンネル(例えば、左ステレオチャンネル)の個々の成分である。このようなプリプロセッシング方法はプレミキシングモードIという。図6の例参照。   In other words, the premixed result is the individual components of one of the stereo channels (eg, the left stereo channel). Such a preprocessing method is called premixing mode I. See example in FIG.

上記のHRTFは、それぞれ受聴者の左耳により認知される音の一因となるため、左耳HRTFという。このようなプレミックス結果のダウンミックスにより、正確な左ステレオ音響(602)が形成される。   Each of the above HRTFs is called left ear HRTF because it contributes to the sound recognized by the listener's left ear. An accurate left stereo sound (602) is formed by the downmix of the premix result.

Figure 2007187749
Figure 2007187749

右ステレオサウンド(603)を提供するために、元の入力はプレミックスされ、右耳HRTFにより再び同様にダウンミックスされる。   To provide the right stereo sound (603), the original input is premixed and again downmixed by the right ear HRTF as well.

Figure 2007187749
Figure 2007187749

ステレオサウンドの対{L0,R0}はさらに音響符号化装置により処理され、圧縮されたステレオサウンドが多重化装置においてビットストリームに詰め込まれる。 The stereo sound pair {L 0 , R 0 } is further processed by the acoustic encoder, and the compressed stereo sound is packed into the bitstream at the multiplexer.

元のマルチチャンネル信号を復元するためには、HRTFフィルタ係数はポストプロセッシングモジュール(502)において使用できなくてはならない。よって、これら係数も量子化され、部分サイド情報としてビットストリームに詰め込まれる。   In order to recover the original multi-channel signal, the HRTF filter coefficients must be available in the post-processing module (502). Therefore, these coefficients are also quantized and packed into the bit stream as partial side information.

さらにHRTFサイド情報を削減するために、HRTFを、D個のサンプルのピークフィルタHpeak,i(z)、ノッチフィルタHnotch,j(z)、ゲインG及び遅延の組み合わせとして表すことができる。 To further reduce HRTF side information, the HRTF can be expressed as a combination of D sample peak filter H peak, i (z), notch filter H notch, j (z), gain G and delay.

Figure 2007187749
Figure 2007187749

各ピーク(又はノッチ)フィルタのスペクトルは、図7に示すように、ほぼ三角形状をした一つの増幅(又は減衰)を示している。この場合、ピーク(又はノッチ)フィルタ全体は、三角の中央周波数Fc、三角形の相対的な高さh(dB)、およびQファクタというほんの数個のパラメータにより特徴づけることができる。このとき、三角形の範囲を以下とする。 The spectrum of each peak (or notch) filter shows one amplification (or attenuation) having a substantially triangular shape as shown in FIG. In this case, the entire peak (or notch) filter can be characterized by just a few parameters: the triangular center frequency F c , the relative height h (dB) of the triangle, and the Q factor. At this time, the range of the triangle is as follows.

Figure 2007187749
Figure 2007187749

このようにHRTFをパラメータで記述することをパラメトリックHRTF、或いは略してpHRTFという。各HRTFフィルタ係数は、上記パラメータの関数h(n)=Γ(Fc,h,Q,G,D)と表すことができる。pHRTFパラメータの送信は、従来のHRTFフィルタ係数の送信と比較して、使用するサイド情報が少なくなる。さらに、各pHRTFは、低い次数のピーク及びノッチフィルタに分解されるため、計算上の複雑さも軽減される。   Such description of HRTF with parameters is called parametric HRTF, or pHRTF for short. Each HRTF filter coefficient can be expressed as a function h (n) = Γ (Fc, h, Q, G, D) of the above parameters. The transmission of the pHRTF parameter uses less side information than the transmission of the conventional HRTF filter coefficient. In addition, each pHRTF is decomposed into low order peak and notch filters, thus reducing computational complexity.

全体として、上記HRTF関連サイド情報は、HRTFという伝達関数係数の形であれpHRTFというパラメータの形であれ、サラウンド符号化装置において量子化および多重化される。復号化装置において、この情報は多重分離され、次にポストプロセッシングモジュール(502)により調査され、意図するデコンボリューションHRTFを構築する。   As a whole, the HRTF-related side information is quantized and multiplexed in a surround encoding device, whether in the form of a transfer function coefficient called HRTF or in the form of a parameter called pHRTF. At the decoder, this information is demultiplexed and then examined by the post processing module (502) to build the intended deconvolution HRTF.

本発明の実施の形態2においては、プレミキシングモードIIという別のHRTFに基づくプレミキシングモードを取り入れている。   In the second embodiment of the present invention, another premixing mode based on HRTF called premixing mode II is adopted.

Figure 2007187749
Figure 2007187749

このようなプレミキシングモードの動機は、HRTFのスペクトルゲインの平均値の潜在的な不均等さに関する懸念に基づいている。一般的に、片側HRTF(例えば、HR0/Lf(z)又はHL0/Rs(z))は、それに対応する反対側のHRTF(例えば、HL0/Lf(z)又はHR0/Rs(z))より平均スペクトルゲインGは小さくなる。 The motivation for such a premixing mode is based on concerns about potential non-uniformities in the average value of the HRTF spectral gain. In general, a one-side HRTF (eg, H R0 / Lf (z) or H L0 / Rs (z)) is the corresponding opposite HRTF (eg, H L0 / Lf (z) or H R0 / Rs ( z)), the average spectral gain G becomes smaller.

プレミキシングモードIを考えてみると、潜在的なHRTFスペクトルゲインの差は、結果として、片側HRTFコンボリューション(例えば、R'f(z)及びR's(z))を有するこれらチャンネルが、それに対応する反対側HRTFコンボリューション(例えば、L'f(z)及びL's(z))よりも情報が損失しやすい可能性が出てくる。したがって、このような問題を克服するためにプレミキシングモードIIが取り入れられている。 Considering premixing mode I, the potential HRTF spectral gain difference results in these channels with one-side HRTF convolutions (eg, R ′ f (z) and R ′ s (z)) There is a possibility that information is more likely to be lost than the corresponding opposite HRTF convolution (eg, L ′ f (z) and L ′ s (z)). Therefore, premixing mode II is introduced to overcome such problems.

図8に示すように、プレミキシングモードIと比べて、プレミキシングモードIIでは直接ステレオサウンドが提供されるわけではない。しかし、ステレオサウンドL0及びR0は、実際のところ上記プレミキシング処理中の中間結果である。したがって、実装上の観点から、プレミキシングモードIIは、プレミキシングモードIに加算ステップが追加された拡張版である。 As shown in FIG. 8, compared to the premixing mode I, the premixing mode II does not directly provide stereo sound. However, the stereo sounds L 0 and R 0 are actually intermediate results during the premixing process. Therefore, from the viewpoint of implementation, the premixing mode II is an extended version in which an addition step is added to the premixing mode I.

よって、すべての原理がプレミキシングモードIIにも当てはまるが、説明を簡単にするために、以下では、プリプロセッシングモジュールはプレミキシングモードIを採用するものとする。   Thus, although all the principles apply to the premixing mode II, in order to simplify the description, the preprocessing module is assumed to adopt the premixing mode I below.

バイノーラルキュー抽出モジュール及び音響符号化装置の後に、上記生成されたバイノーラルキュー情報及び圧縮ステレオ信号が量子化され、多重化されて、多重化装置(303)から多重分離装置(304)に送信されるビットストリームを形成する。   After the binaural cue extraction module and the acoustic encoding device, the generated binaural cue information and the compressed stereo signal are quantized, multiplexed, and transmitted from the multiplexer (303) to the demultiplexer (304). Form a bitstream.

サラウンド複合化装置において、サイド情報が多重分離される。圧縮されたステレオ信号は音響復号化装置(305)に送られて、「サラウンド音響」効果をもたらすステレオサウンドを復元する。マルチチャンネル再構築モジュール(306)は、中間マルチチャンネル出力{L"f, R"f, C", LFE", L"s,R"s}を再構築する。 Side information is demultiplexed in the surround decoding apparatus. The compressed stereo signal is sent to the acoustic decoder (305) to recover the stereo sound that produces the “surround sound” effect. The multi-channel reconstruction module (306) reconstructs the intermediate multi-channel outputs {L " f , R" f , C ", LFE", L " s , R" s }.

しかし、対応するマルチチャンネル入力{L'f, R'f, C', LFE', L's,R's}と比較して、マルチチャンネル出力は入力と聴感上似ているが、波形は異なっている。 However, compared to the corresponding multi-channel input {L ' f , R' f , C ', LFE', L ' s , R' s }, the multi-channel output is audibly similar to the input, but the waveform is Is different.

以下の説明をわかりやすくするために、ここでマルチチャンネル入力と出力との関係における2つの特性について考察する。第1に、マルチチャンネル出力は、概してダウンミックス信号L0のスケーリングによって構築される。すなわち、おおざっぱに言って、マルチチャンネル出力の各チャンネルはL0と同様の波形を有していると考えられる。第2に、各パラメータバンドのマルチチャンネルのスペクトルエネルギーは、対応する入力のスペクトルエネルギーと一致している。 In order to make the following description easier to understand, here we consider two characteristics in the relationship between multi-channel input and output. First, the multi-channel output is constructed generally by scaling the downmix signal L 0. That is, roughly speaking, each channel of the multi-channel output is considered to have the same waveform as L 0. Secondly, the multi-channel spectral energy of each parameter band matches the spectral energy of the corresponding input.

元の入力信号の復元を進めるために、ポストプロセッシングモジュール(502)(デコンボリューションモジュールともいう)は、プリプロセッシングとは逆向きにそれらを導出することを意図している。   In order to proceed with the restoration of the original input signals, the post-processing module (502) (also called deconvolution module) is intended to derive them in the opposite direction to preprocessing.

Figure 2007187749
Figure 2007187749

しかし、上記のような中間マルチチャンネル入力と出力との波形の相違により、上記HRTFは元のHRTFと完全に同一とはならないはずである。事実、ダウンミキシング処理を思いおこせば、ダウンミックス信号L0は、図9に示すように(図9において、元の信号スペクトルは[Fc−3ΔF,Fc+3ΔF]の範囲内で平坦とする)、個々の成分と比較して波形包絡線が平坦になっている。したがって、上記サラウンドコーデック入出力の関係における第1の特性に関して、マルチチャンネル出力も波形包絡線が平坦であると導出しても差し支えない。この場合、元のHRTFそのものを上記数式に当てはめれば、復元された信号

Figure 2007187749
は余分にスペクトル増幅又は減衰されることになる。このような副作用をここでは「ピーク効果」と呼ぶ。 However, due to the difference in waveform between the intermediate multi-channel input and output as described above, the HRTF should not be exactly the same as the original HRTF. In fact, when considering the down-mixing process, the downmix signal L 0 is as shown in FIG. 9 (in FIG. 9, the original signal spectrum is flat within the range of [F c −3ΔF, F c + 3ΔF]). The waveform envelope is flat compared to the individual components. Therefore, regarding the first characteristic in the relationship between the input and output of the surround codec, the multichannel output may be derived that the waveform envelope is flat. In this case, if the original HRTF itself is applied to the above equation, the restored signal
Figure 2007187749
Will be extra spectrally amplified or attenuated. Such side effects are referred to herein as “peak effects”.

中間マルチチャンネル入力と出力との関係を調査することによりピーク効果を減衰するための解決法が2つある。いずれの方法も、好適なデコンボリューションフィルタをいかにしてフレーム単位で動的に設計するかという点に焦点を当てている。   There are two solutions for attenuating the peak effect by investigating the relationship between the intermediate multi-channel input and the output. Both methods focus on how to design a suitable deconvolution filter dynamically on a frame-by-frame basis.

以下の説明を簡単にするために、プリプロセッシングモジュールにおいて採用されるHRTFはpHRTFであるとする。その結果、HRTF関連サイド情報は、上記各関連ピーク及びノッチフィルタのパラメータである。各ピーク又はノッチフィルタの周波数範囲が、対応するノッチ又はピークフィルタの周波数範囲と一致する場合、対応するデコンボリューションフィルタも、ピークフィルタとノッチフィルタの直列接続により結合されるものとすることができる。各上記の簡略化及び多重分離されたpHRTFパラメータに基づき、各ピーク又はノッチフィルタについて、図6に示されるように、唯一の不明のパラメータが三角形の高さh'になる。   In order to simplify the following description, it is assumed that the HRTF employed in the preprocessing module is pHRTF. As a result, the HRTF-related side information is a parameter of each related peak and notch filter. If the frequency range of each peak or notch filter matches the frequency range of the corresponding notch or peak filter, the corresponding deconvolution filter can also be coupled by a series connection of the peak filter and the notch filter. Based on each of the above simplified and demultiplexed pHRTF parameters, for each peak or notch filter, the only unknown parameter is the triangle height h ′, as shown in FIG.

pHRTF HL0/LfがノッチフィルタHnotch,0を有するとした場合、デコンボリューションのために、それに対応するピークフィルタHpeak,0、すなわち

Figure 2007187749
を動的に設計する方法をここに示す。他のデコンボリュートされたピーク及びノッチフィルタも同様に設計することができる。 If pHRTF H L0 / Lf has a notch filter H notch, 0 , for deconvolution, the corresponding peak filter H peak, 0 , ie
Figure 2007187749
Here's how to dynamically design. Other deconvoluted peak and notch filters can be similarly designed.

本発明の実施の形態3として、デコンボリューションピークフィルタHpeak,0は、プリプロセッシングモジュール(501)においてフレーム単位で動的に設計される。 As Embodiment 3 of the present invention, the deconvolution peak filter H peak, 0 is dynamically designed on a frame basis in the preprocessing module (501).

この目的のため、各フレームでは、まず、プリプロセッシングモジュールにおいて、図10に示されるような[Fc−ΔF,Fc+ΔF]の三角形の範囲内で、中間出力の部分スペクトルL"fが予測される。この予測は、部分スペクトルL0をスケールファクタ

Figure 2007187749
でスケーリングすることによりおこなわれる。このとき
Figure 2007187749
を満たし、
Figure 2007187749
とする。 For this purpose, in each frame, first, the preprocessing module predicts the partial spectrum L ″ f of the intermediate output within the range of the triangle of [F c −ΔF, F c + ΔF] as shown in FIG. This prediction uses the partial spectrum L 0 as the scale factor
Figure 2007187749
This is done by scaling with. At this time
Figure 2007187749
The filling,
Figure 2007187749
And

第2に、各三角形について、部分スペクトルエネルギー

Figure 2007187749
が元の信号Lfのエネルギーと近くなるように、三角形の高さh'の最適なデコンボリューションフィルタを求める。すなわち、デコンボリューションフィルタの最適な高さは、以下を最適な目標値として求められる。 Second, for each triangle, the partial spectral energy
Figure 2007187749
Find an optimal deconvolution filter with a triangle height h ′ such that is close to the energy of the original signal L f . That is, the optimum height of the deconvolution filter is obtained with the following as the optimum target value.

Figure 2007187749
Figure 2007187749

ただし、

Figure 2007187749
とする。 However,
Figure 2007187749
And

いったん最適なh'opt (dB)が求められると、対応するQ'も

Figure 2007187749
により計算できる。 Once the optimal h ' opt (dB) is found, the corresponding Q'
Figure 2007187749
Can be calculated by

最終的なピークフィルタは、

Figure 2007187749
により計算される。 The final peak filter is
Figure 2007187749
Is calculated by

その結果、最終的なデコンボリュートされたチャンネル信号は、

Figure 2007187749
である。 As a result, the final deconvolved channel signal is
Figure 2007187749
It is.

上記演算は、pHRTFに係るすべてのピーク及びノッチフィルタについて繰り返される。   The above calculation is repeated for all peaks and notch filters associated with pHRTF.

例えば、DFFTが採用された場合、まずプレミックス結果のスペクトル(L'f)、元の入力(Lf)、ダウンミックス信号(L0)が、例えば、

Figure 2007187749
のように計算される。このときNはFFT分解能とする。 For example, when DFFT is adopted, first, the spectrum (L ' f ) of the premix result, the original input (L f ), and the downmix signal (L 0 ) are, for example,
Figure 2007187749
It is calculated as follows. At this time, N is FFT resolution.

第2に、Hnotch,0の影響をうけた周波数範囲[Fc−ΔF,Fc+ΔF]を、以下の通り、Hzから対応する周波数係数インデックス [n0,n1]に変換する。 Second, the frequency range [F c −ΔF, F c + ΔF] affected by H notch, 0 is converted from Hz to the corresponding frequency coefficient index [n 0 , n 1 ] as follows.

Figure 2007187749
Figure 2007187749

このとき

Figure 2007187749
及び
Figure 2007187749
は、それぞれ下限及び上限演算を示す。 At this time
Figure 2007187749
as well as
Figure 2007187749
Indicates a lower limit and an upper limit calculation, respectively.

第3に、スペクトルエネルギーL'f及びL0それぞれを以下の通り計算する。 Third, each of the spectral energies L ′ f and L 0 is calculated as follows:

Figure 2007187749
Figure 2007187749

第4に、

Figure 2007187749
を満たすエネルギースケールファクタαを求める。 Fourth,
Figure 2007187749
An energy scale factor α satisfying

最終的にスケーリングされたL0のスペクトル

Figure 2007187749
は、中間出力L"の予測部分スペクトルと考えられる。 The final scaled spectrum of L 0
Figure 2007187749
Is considered the predicted partial spectrum of the intermediate output L " f .

上記予測結果に基づき、デコンボリューションピークフィルタHpeak,0は動的に更新される。 Based on the prediction result, the deconvolution peak filter H peak, 0 is dynamically updated.

まず、初期ピークフィルタの高さをノッチフィルタの高さの逆数、つまり、h'l=10h'/20とした場合の数値付きdB単位におけるh'=−hとする。 First, it is assumed that the height of the initial peak filter is the reciprocal of the height of the notch filter, that is, h ′ = − h in dB units with numerical values when h ′ l = 10 h ′ / 20 .

第2に、h'が相対的な高さであるので、予測スペクトルL"fは、Hpeak,0の平均フィルタゲインにより等化される。すなわち、1/G(dB) 。 Second, since h ′ is a relative height, the predicted spectrum L ″ f is equalized by an average filter gain of H peak, 0 , ie 1 / G (dB).

第3に、以下の通り、初期ピークフィルタを予測L"fスペクトルのスケーリングに適用する。 Third, an initial peak filter is applied to scale the predicted L " f spectrum as follows.

Figure 2007187749
Figure 2007187749

ここで、ncは、中央周波数Fcに対応する周波数係数インデックス

Figure 2007187749
である。 Where n c is the frequency coefficient index corresponding to the center frequency F c
Figure 2007187749
It is.

最適な高さHpeak,0を求める上での最小化の問題を解決する方法はいろいろある。その1つは二分探索法、すなわち以下のように最適なh'loptが見つかるまでh'lを繰り返し調整する方法である。 There are various ways to solve the minimization problem in finding the optimum height H peak, 0 . One of them is a binary search method, that is, a method of repeatedly adjusting h ′ l until an optimum h ′ lopt is found as follows.

Figure 2007187749
Figure 2007187749

ここで、

Figure 2007187749
である。 here,
Figure 2007187749
It is.

最後に、h'loptをdB単位でh'opt=−20・log10(h'lopt)に変換し、対応するQ'を

Figure 2007187749
として計算する。そこでデコンボリューションフィルタは、
Figure 2007187749
として構築することができる。 Finally, h ' lopt is converted to h' opt = −20 · log 10 (h ' lopt ) in dB , and the corresponding Q'
Figure 2007187749
Calculate as So the deconvolution filter is
Figure 2007187749
Can be constructed as

各フレームでは、補助情報としてのすべての最適化されたフィルタの高さ情報h'optが、他の上記情報とともにビットストリームに多重化される。この付加的な補助情報はフィルタの高さ情報であるため、上記の解決法を高さに基づくフィルタ設計法という。 In each frame, all optimized filter height information h ′ opt as auxiliary information is multiplexed into the bitstream along with the other information. Since this additional auxiliary information is filter height information, the above solution is called a filter design method based on height.

本発明の実施の形態4として、デコンボリューションフィルタは、ポストプロセッシング(モジュール)において動的に設計される。上記のような高さに基づくフィルタ設計とは違って、この場合は本物のサラウンドコーデック出力(L"f)が使用できるが、元の信号(Lf)はない。したがって、部分スペクトルELfを送信する必要がある。よって、この解決法はエネルギーに基づくフィルタ設計法という。全体の枠組みは図11に示されている。 As Embodiment 4 of the present invention, the deconvolution filter is dynamically designed in post-processing (module). Unlike filter design based on the height as described above, in this case a real surround codec output (L "f) can be used, the original signal (L f) are not. Therefore, the partial spectrum E Lf Therefore, this solution is called an energy-based filter design method, and the whole framework is shown in FIG.

この場合、デコンボリューションフィルタは、前に説明したのと同様のステップにしたがって設計することができる。 各フレームにおいて、主なステップは以下の通りである。   In this case, the deconvolution filter can be designed according to the same steps as previously described. In each frame, the main steps are as follows.

1)ノッチフィルタに対応する周波数係数インデックスn0及びn1を計算する、
2)時間/周波数変換L"f(n)をおこなう、
3)初期値h'lを使って、以下の通りL"f(k)をスケーリングする、

Figure 2007187749
4)
Figure 2007187749
を計算する、
5)最適な高さh'optを二分探索し、対応するQ'を計算する。 1) Calculate frequency coefficient indices n 0 and n 1 corresponding to the notch filter,
2) Perform time / frequency conversion L " f (n),
3) Using the initial value h ' l , scale L " f (k) as follows:
Figure 2007187749
4)
Figure 2007187749
Calculate
5) Perform a binary search for the optimal height h ′ opt and calculate the corresponding Q ′.

中間出力、例えばL"f(k)に対する予測処理が省かれているため、高さに基づく方法と比較して、この方法のほうが複雑でない。 This method is less complex than the height-based method because the prediction process for intermediate outputs, eg L " f (k), is omitted.

しかし、フレーム単位での動的フィルタ修正は、好ましくない副次的悪影響を招く。例えば、過剰なノイズ削減処理により、無音期間を通してなんらかの可聴ノイズ(ノイズバンピングとして知られている現象)が発生する。   However, dynamic filter correction on a frame basis causes undesirable side effects. For example, some audible noise (a phenomenon known as noise bumping) occurs during silent periods due to excessive noise reduction processing.

本発明の実施の形態5では、ノイズバンピングを避けるために、フレーム単位でのフィルタスペクトル高さの更新ステップサイズを規定の閾値に限定することができる。つまり、i番目のフレームで、デコンボリューションフィルタの高さH'L0/Lf(z)がh'opt,iとすると、以下を満たす。 In the fifth embodiment of the present invention, in order to avoid noise bumping, the update step size of the filter spectrum height in units of frames can be limited to a prescribed threshold value. In other words, when the height H ′ L0 / Lf (z) of the deconvolution filter is h ′ opt, i in the i-th frame, the following is satisfied.

Figure 2007187749
Figure 2007187749

ここで、ξは予め決められた閾値(dB)とする。   Here, ξ is a predetermined threshold value (dB).

2つのチャンネルのマルチチャンネル音響符号化の原理を示す。2 illustrates the principle of multi-channel acoustic coding of two channels. ダウンミックス信号を複数の個々の信号に分離するマルチステージチャンネル分離を示す。Fig. 2 shows multi-stage channel separation separating a downmix signal into a plurality of individual signals. マルチチャンネル音響符号化のマルチチャンネルへの拡張を示す。Fig. 2 shows the extension of multi-channel acoustic coding to multi-channel. 12のHRTFの定義を示す。12 HRTF definitions are shown. 本発明によるプリプロセッシングモジュール及びデコンボレーションモジュールの追加を示す。Fig. 4 shows the addition of a preprocessing module and a deconvolution module according to the invention. プレミキシングモードIの枠組みを示す。The framework of premixing mode I is shown. pHRTFノッチフィルタのパラメータ定義を示す。The parameter definition of a pHRTF notch filter is shown. プレミキシングモードIIの枠組みを示す。The framework of premixing mode II is shown. 信号スペクトルの比較を示す。A comparison of signal spectra is shown. pHRTF形式のノッチフィルタと、対応するデコンボリューションピークフィルタの図である。It is a figure of the notch filter of pHRTF form, and a corresponding deconvolution peak filter. 左前チャンネルでのデコンボリューション処理の図である。It is a figure of the deconvolution process in a left front channel.

Claims (9)

マルチチャンネル音響符号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、HRTFプレミックスされた2組のマルチチャンネル信号と1対のステレオ信号とを生成するプリプロセッシング装置と、前記プレミックスマルチチャンネル音響信号のうち1組を1つの1チャンネル信号に変換するダウンミックス装置と、再構築情報を生成するために前記ダウンミックス処理を分析するバイノーラルキュー装置と、前記1対のステレオ信号をステレオビットストリームに符号化するステレオ音響符号化装置とを備え、
(a)プリプロセッシング装置において、前記マルチチャンネル音響信号に頭部伝達関数(HRTF)を2度適用して、2組のプレミックスマルチチャンネル音響信号をそれぞれ生成し、
(b)前記2組のマルチチャンネル音響信号をダウンミックスして、1対のステレオ信号を形成し、
(c)1組のプレミックスマルチチャンネル音響信号を、中間マルチチャンネル音響信号として前記マルチチャンネル音響符号化装置へ入力して、再構築情報を生成し、
(d)ダウンミックスステレオ信号をステレオ音響符号化装置に入力して、圧縮ステレオビットストリームを生成し、
(e)前記頭部伝達関数を付加的HRTF情報に変換し、量子化し、付加的サイド情報として伝送し、
(f)フレーム単位で、付加的補助情報を抽出し、量子化し、付加的サイド情報として伝送する
ことを特徴とする。
A device for realizing stereo sound having a surround sound effect in a multi-channel sound encoding device, and a preprocessing device for generating two sets of multi-channel signals and a pair of stereo signals that are premixed with HRTF, A downmix device that converts one set of the premixed multi-channel audio signals into a single channel signal, a binaural cue device that analyzes the downmix processing to generate reconstruction information, and the pair of stereos A stereo acoustic encoding device for encoding a signal into a stereo bitstream;
(A) In the preprocessing device, a head related transfer function (HRTF) is applied twice to the multichannel acoustic signal to generate two sets of premixed multichannel acoustic signals,
(B) Downmixing the two sets of multi-channel audio signals to form a pair of stereo signals;
(C) inputting a set of premix multi-channel audio signals as intermediate multi-channel audio signals to the multi-channel audio encoding device to generate reconstruction information;
(D) input the downmix stereo signal to a stereo acoustic encoder to generate a compressed stereo bitstream;
(E) converting the head-related transfer function into additional HRTF information, quantizing, and transmitting as additional side information;
(F) It is characterized in that additional auxiliary information is extracted, quantized, and transmitted as additional side information in units of frames.
マルチチャンネル音響符号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、HRTFプレミックスされた2組のマルチチャンネル信号と1対のステレオ信号とを生成するプリプロセッシング装置と、前記プレミックスマルチチャンネル音響信号のうち1組を1つの1チャンネル信号に変換するダウンミックス装置と、再構築情報を生成するために前記ダウンミックス処理を分析するバイノーラルキュー装置と、前記1対のステレオ信号をステレオビットストリームに符号化するステレオ音響符号化装置とを備え、
(a)プリプロセッシング装置において、前記マルチチャンネル音響信号に頭部伝達関数(HRTF)を2度適用して、2組のプレミックスマルチチャンネル音響信号をそれぞれ生成し、
(b)前記2組のマルチチャンネル音響信号をダウンミックスして、1対のステレオ信号を形成し、
(c)前記2組のマルチチャンネル音響信号の和を求めて、新たな1組のマルチチャンネル音響信号とし、
(d)前記新たな1組のマルチチャンネル音響信号を、中間マルチチャンネル音響信号として前記マルチチャンネル音響符号化装置へ入力して、再構築情報を生成し、
(e)ダウンミックスステレオ信号をステレオ音響符号化装置に入力して、圧縮ステレオビットストリームを生成し、
(f)前記頭部伝達関数を付加的HRTF情報に変換し、量子化し、付加的サイド情報として転送し、
(g)フレーム単位で、付加的補助情報を抽出し、量子化し、付加的サイド情報として伝送する
ことを特徴とする。
A device for realizing stereo sound having a surround sound effect in a multi-channel sound encoding device, and a preprocessing device for generating two sets of multi-channel signals and a pair of stereo signals that are premixed with HRTF, A downmix device that converts one set of the premixed multi-channel audio signals into a single channel signal, a binaural cue device that analyzes the downmix processing to generate reconstruction information, and the pair of stereos A stereo acoustic encoding device for encoding a signal into a stereo bitstream;
(A) In the preprocessing device, a head related transfer function (HRTF) is applied twice to the multichannel acoustic signal to generate two sets of premixed multichannel acoustic signals,
(B) Downmixing the two sets of multi-channel audio signals to form a pair of stereo signals;
(C) Obtain the sum of the two sets of multi-channel sound signals to obtain a new set of multi-channel sound signals;
(D) inputting the new set of multi-channel audio signals as intermediate multi-channel audio signals to the multi-channel audio encoding device to generate reconstruction information;
(E) The downmix stereo signal is input to a stereo audio encoding device to generate a compressed stereo bitstream;
(F) transforming the head-related transfer function into additional HRTF information, quantizing and transferring it as additional side information;
(G) It is characterized in that additional auxiliary information is extracted in units of frames, quantized, and transmitted as additional side information.
マルチチャンネル音響復号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、ステレオビットストリームを復号しステレオ音響信号を形成するステレオ音響復号化装置と、前記内部的にダウンミックスしたマルチチャンネル信号に再構築情報を適用して中間マルチチャンネル音響信号を再構築するマルチチャンネル再構築装置と、前記マルチチャンネル音響信号を復元するポストプロセッシング装置とを備え、
(a)付加的HRTFにおけるHRTFをデコンボリューション情報に変換し、
(b)前記補助情報を用いてフレーム単位でデコンボリューション情報を更新し、
(c)前記更新されたデコンボリューション情報を前記再構築された中間マルチチャンネル音響信号に適用して、前記マルチチャンネル音響信号を復元する
ことを特徴とする。
An apparatus for realizing stereo sound having a surround sound effect in a multi-channel sound decoding apparatus, and a stereo sound decoding apparatus that decodes a stereo bitstream to form a stereo sound signal, and the internal downmix A multi-channel reconstruction device that reconstructs an intermediate multi-channel acoustic signal by applying reconstruction information to the multi-channel signal; and a post-processing device that restores the multi-channel acoustic signal;
(A) Convert HRTF in additional HRTF into deconvolution information,
(B) Update the deconvolution information in units of frames using the auxiliary information,
(C) applying the updated deconvolution information to the reconstructed intermediate multi-channel acoustic signal to restore the multi-channel acoustic signal.
前記復元されたマルチチャンネル信号から情報を失う可能性が低くなるように、前記プリプロセッシング装置は前記プレミックスマルチチャンネル信号をミックスする
ことを特徴とする請求項1に記載の装置。
The apparatus of claim 1, wherein the preprocessing device mixes the premixed multichannel signal such that the likelihood of losing information from the recovered multichannel signal is reduced.
前記付加的HRTF情報は、伝達関数係数やスペクトルパラメータのような、前記マルチチャンネル音響復号化装置が前記HRTFを再構築するためのデータを含む
ことを特徴とする請求項1および3に記載の装置。
The apparatus according to claims 1 and 3, wherein the additional HRTF information includes data for the multi-channel acoustic decoding device to reconstruct the HRTF, such as transfer function coefficients and spectral parameters. .
前記付加的補助情報は、前記マルチチャンネル音響復号化装置が前記HRTFをフレーム単位で動的に更新するためのデータを含む
ことを特徴とする請求項1および3に記載の装置。
The apparatus according to claim 1 or 3, wherein the additional auxiliary information includes data for the multi-channel audio decoding device to dynamically update the HRTF in units of frames.
あるフレームの前記補助データは、直前のフレームの補助データと閾値の分だけ異なるということがない
ことを特徴とする請求項6に記載の装置。
The apparatus according to claim 6, wherein the auxiliary data of a certain frame does not differ from the auxiliary data of the immediately preceding frame by a threshold value.
前記動的に更新されたデコンボリューションHRTFは、前記中間マルチチャンネル信号から前記HRTFを効果的に分離することができる
ことを特徴とする請求項3、5、6、7に記載の装置。
8. The apparatus of claim 3, 5, 6, 7 wherein the dynamically updated deconvolution HRTF can effectively separate the HRTF from the intermediate multi-channel signal.
前記デコンボリューション処理により前記プレミキシング処理を効果的に反転することができる
ことを特徴とする請求項1、8に記載の装置。
The apparatus according to claim 1, wherein the premixing process can be effectively reversed by the deconvolution process.
JP2006004012A 2006-01-11 2006-01-11 New device for supporting head-related transfer function in multi-channel coding Pending JP2007187749A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006004012A JP2007187749A (en) 2006-01-11 2006-01-11 New device for supporting head-related transfer function in multi-channel coding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006004012A JP2007187749A (en) 2006-01-11 2006-01-11 New device for supporting head-related transfer function in multi-channel coding

Publications (1)

Publication Number Publication Date
JP2007187749A true JP2007187749A (en) 2007-07-26

Family

ID=38342979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006004012A Pending JP2007187749A (en) 2006-01-11 2006-01-11 New device for supporting head-related transfer function in multi-channel coding

Country Status (1)

Country Link
JP (1) JP2007187749A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2443075C2 (en) * 2007-10-09 2012-02-20 Конинклейке Филипс Электроникс Н.В. Method and apparatus for generating a binaural audio signal
JP5243527B2 (en) * 2008-07-29 2013-07-24 パナソニック株式会社 Acoustic encoding apparatus, acoustic decoding apparatus, acoustic encoding / decoding apparatus, and conference system
JP2014222859A (en) * 2013-05-14 2014-11-27 日本放送協会 Acoustic signal reproduction device and acoustic signal preparation device
WO2017195616A1 (en) * 2016-05-11 2017-11-16 ソニー株式会社 Information-processing device and method
CN110534120A (en) * 2019-08-31 2019-12-03 刘秀萍 A kind of surround sound error-resilience method under mobile network environment
CN113806679A (en) * 2021-09-13 2021-12-17 中国政法大学 Head-related transfer function personalization method based on pre-training model

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2443075C2 (en) * 2007-10-09 2012-02-20 Конинклейке Филипс Электроникс Н.В. Method and apparatus for generating a binaural audio signal
US8265284B2 (en) 2007-10-09 2012-09-11 Koninklijke Philips Electronics N.V. Method and apparatus for generating a binaural audio signal
JP5243527B2 (en) * 2008-07-29 2013-07-24 パナソニック株式会社 Acoustic encoding apparatus, acoustic decoding apparatus, acoustic encoding / decoding apparatus, and conference system
JP2014222859A (en) * 2013-05-14 2014-11-27 日本放送協会 Acoustic signal reproduction device and acoustic signal preparation device
WO2017195616A1 (en) * 2016-05-11 2017-11-16 ソニー株式会社 Information-processing device and method
US10798516B2 (en) 2016-05-11 2020-10-06 Sony Corporation Information processing apparatus and method
CN110534120A (en) * 2019-08-31 2019-12-03 刘秀萍 A kind of surround sound error-resilience method under mobile network environment
CN113806679A (en) * 2021-09-13 2021-12-17 中国政法大学 Head-related transfer function personalization method based on pre-training model
CN113806679B (en) * 2021-09-13 2024-05-28 中国政法大学 Head related transfer function individuation method based on pre-training model

Similar Documents

Publication Publication Date Title
JP4934427B2 (en) Speech signal decoding apparatus and speech signal encoding apparatus
KR100928311B1 (en) Apparatus and method for generating an encoded stereo signal of an audio piece or audio data stream
RU2439718C1 (en) Method and device for sound signal processing
JP5081838B2 (en) Audio encoding and decoding
US9460729B2 (en) Layered approach to spatial audio coding
JP5883561B2 (en) Speech encoder using upmix
CA2645912C (en) Methods and apparatuses for encoding and decoding object-based audio signals
TWI498882B (en) Audio decoder
RU2639952C2 (en) Hybrid speech amplification with signal form coding and parametric coding
JP4918490B2 (en) Energy shaping device and energy shaping method
TWI404429B (en) Method and apparatus for encoding/decoding multi-channel audio signal
JP5737077B2 (en) Audio encoding apparatus, audio encoding method, and audio encoding computer program
JP2015528925A (en) Audio signal processing apparatus and method
JPWO2006059567A1 (en) Stereo encoding apparatus, stereo decoding apparatus, and methods thereof
EP2839460A1 (en) Stereo audio signal encoder
JPWO2007029412A1 (en) Multi-channel acoustic signal processing device
JP2007187749A (en) New device for supporting head-related transfer function in multi-channel coding
KR20070090217A (en) Scalable encoding apparatus and scalable encoding method
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
JPWO2008132826A1 (en) Stereo speech coding apparatus and stereo speech coding method
JP2010139671A (en) Audio decoding apparatus, method, and program
JP2007104601A (en) Apparatus for supporting header transport function in multi-channel encoding
JP2007025290A (en) Device controlling reverberation of multichannel audio codec
JP2009151183A (en) Multi-channel voice sound signal coding device and method, and multi-channel voice sound signal decoding device and method
WO2022216542A1 (en) Multi-band ducking of audio signals technical field