JP2006325162A - Device for performing multi-channel space voice coding using binaural queue - Google Patents
Device for performing multi-channel space voice coding using binaural queue Download PDFInfo
- Publication number
- JP2006325162A JP2006325162A JP2005148763A JP2005148763A JP2006325162A JP 2006325162 A JP2006325162 A JP 2006325162A JP 2005148763 A JP2005148763 A JP 2005148763A JP 2005148763 A JP2005148763 A JP 2005148763A JP 2006325162 A JP2006325162 A JP 2006325162A
- Authority
- JP
- Japan
- Prior art keywords
- signals
- signal
- channel
- channel separation
- queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic Arrangements (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本明細書においては、符号化処理においてバイノーラルキューを抽出して、ダウンミックス信号を生成し、復号化処理において前記バイノーラルキューを前記ダウンミックス信号に適用することでマルチチャネル音声信号を圧縮する装置に関する発明について詳細に説明する。本発明は、トレーニング用シミュレータ、カーオーディオシステム、家庭用またはビジネス用のオーディオ・ビデオシステム等に適用可能である。 The present invention relates to an apparatus for compressing a multi-channel audio signal by extracting a binaural cue in an encoding process to generate a downmix signal and applying the binaural cue to the downmix signal in a decoding process. The invention will be described in detail. The present invention is applicable to training simulators, car audio systems, home or business audio / video systems, and the like.
本発明は、従来のマルチチャネル音声符号化技術を改良した技術を提供する。本発明の目的は、ビットレートに制約がある場合でも、知覚上のクオリティー(空間的イメージや音の忠実度など)を保ちつつマルチチャネル音声信号の符号化を行うことである。ビットレートが低くなると、マルチチャネル音声信号の送信や記憶に必要とされる帯域幅や記憶容量を低減できる。また本発明は、従来技術との互換性を保つため、従来の符号化方式や規格をベースとしている。 The present invention provides a technique obtained by improving the conventional multi-channel speech coding technique. An object of the present invention is to encode a multichannel audio signal while maintaining perceptual quality (spatial image, sound fidelity, etc.) even when the bit rate is limited. When the bit rate is lowered, the bandwidth and storage capacity required for transmission and storage of multi-channel audio signals can be reduced. In addition, the present invention is based on a conventional encoding method or standard in order to maintain compatibility with the prior art.
少ないビットでステレオ音声信号を表現するための従来技術の例としてジョイントステレオ符号化がある。ジョイントステレオ符号化の方法として、Middle/Side(MS)ステレオ符号化およびインテンシティーステレオ符号化が一般に用いられる。MSステレオ符号化は、音声信号間の相関性が高い場合に非常に効率的な符号化方法である。なぜなら、MSステレオ符号化においては、右チャネルと左チャネルの代わりに和(Mまたはミドル)チャネルと差分(Sまたはサイド)チャネルとが用いられるが、この場合、差分信号は非常に小さいからである。インテンシティーステレオ符号化では、高周波数の信号において、L信号およびR信号を、一つの代表信号と方向性情報とで置き換えることでビットレートの低減を実現している。これは、高周波数の信号位相に対しては感度が低いという人間の聴覚システムが持つ特徴を利用したものである。 As an example of the prior art for expressing a stereo audio signal with a small number of bits, there is joint stereo coding. As a method of joint stereo coding, Middle / Side (MS) stereo coding and intensity stereo coding are generally used. MS stereo coding is a very efficient coding method when the correlation between audio signals is high. This is because, in MS stereo coding, a sum (M or middle) channel and a difference (S or side) channel are used instead of the right and left channels, and in this case, the difference signal is very small. . Intensity stereo coding replaces the L signal and the R signal with one representative signal and directionality information in a high-frequency signal to realize a reduction in bit rate. This utilizes the feature of the human auditory system that is less sensitive to high frequency signal phases.
通常、音声信号が人間の左右の耳に届くまでには時間差があり、左右の耳に届く音声レベルも異なる。これらの差は、音声信号がそれぞれ異なる経路を通って左右の耳に届くことに起因する。聴き手の脳は、音声信号が左右の耳に届くまでの時間差とレベル差を分析し、聴き手に対して、受け取った音声信号の音源が当該聴き手に対してどの位置にあるのかを知覚させる。聴き手は、その音源の方向および距離の両方を識別できる。一または複数の異なる場所にある一または複数の音源から音声信号を受け取った聴き手は、聴覚情景を描くことが可能となる。 Normally, there is a time difference until the audio signal reaches the left and right ears of a human, and the audio level reaching the left and right ears is also different. These differences are caused by the sound signals reaching the left and right ears through different paths. The listener's brain analyzes the time difference and level difference until the audio signal reaches the left and right ears, and perceives the position of the sound source of the received audio signal relative to the listener. Let The listener can identify both the direction and distance of the sound source. A listener who receives audio signals from one or more sound sources in one or more different locations can draw an auditory scene.
特許文献1、2、および3によれば、近年、ビットレートの低減を目的として、音声符号化処理においてチャネル間レベル/強度差(ILD)、チャネル間位相/遅延差(IPD)、チャネル間干渉性/相関性(ICC)等のバイノーラルキューが多く用いられている。バイノーラルキューは、まず符号化処理においてオリジナル音声信号から導出された後、ダウンミック信号とともに送出され、復号化処理において音声信号を復元するために前記ダウンミックス信号を変換するために用いられる。ILDキューからは二つの信号間の相対的な信号パワーを測定でき、IPDキューからは音が両耳に届くまでの時間差を測定でき、ICCキューからは二つのチャネル間の干渉性や類似度を測定できる。これらのキューは、マルチチャネル音声信号の音源の拡散性、位置関係、方向性を特定し、聴き手が聴覚的情景を頭の中で構成するのを助ける空間的パラメータとなる。
According to
図1は、音声符号化においてバイノーラルキューを用いる典型的な音声エンコーダ/デコーダ(コーデック)を示す図である。符号化処理において、音声信号はフレームごとに処理される。ダウンミックスモジュール(100)は、左(L)チャネルおよび右(R)チャネルをダウンミックスし、ダウンミックス信号Mを生成する。ここで、M=(L+R)/2である。これら3つの信号L、RおよびMを入力として、バイノーラルキュー抽出モジュール(102)はバイノーラルキューを生成する。これらのバイノーラルキューは、通常、周波数だけの領域、または時間領域と周波数領域とのハイブリッド型の領域において生成される。バイノーラルキューの生成は、通常、モジュール(102)に対して、高速フーリエ変換(FFT)、変形離散コサイン変換(MDCT)等の時間−周波数変換の関数、またはQMFバンク等のハイブリッド型の時間−周波数変換の関数を実装することで実現される。一般に、上述のようなコーデックにおいては、音声信号処理はフレーム単位で行われる。 FIG. 1 is a diagram illustrating a typical speech encoder / decoder (codec) that uses binaural cues in speech coding. In the encoding process, the audio signal is processed for each frame. The downmix module (100) downmixes the left (L) channel and the right (R) channel to generate a downmix signal M. Here, M = (L + R) / 2. With these three signals L, R and M as inputs, the binaural cue extraction module (102) generates a binaural cue. These binaural cues are usually generated in a frequency-only region or a hybrid region between a time region and a frequency region. Binaural cues are usually generated for a module (102) by a time-frequency conversion function such as fast Fourier transform (FFT) or modified discrete cosine transform (MDCT), or a hybrid time-frequency such as a QMF bank. Realized by implementing a conversion function. In general, in a codec as described above, audio signal processing is performed in units of frames.
次に、オーディオエンコーダ(104)はMから圧縮ビットストリームを生成する。モジュール(106)は、量子化されたバイノーラルキューと前記ビットストリームとを多重化し、完全なビットストリームを形成する。一般にオーディオエンコーダにおいては、MP3やAAC等の規格に基づくアルゴリズムが用いられる。 The audio encoder (104) then generates a compressed bitstream from M. The module (106) multiplexes the quantized binaural cue and the bitstream to form a complete bitstream. In general, an audio encoder uses an algorithm based on a standard such as MP3 or AAC.
復号化処理において、デマルチプレクサ(108)は、伝送媒体または記憶媒体を介して受信したMのビットストリームをバイノーラルキュー副情報から分離する。オーディオデコーダ(110)はダウンミックス信号Mを再生する。再生されたダウンミックス信号Mは、マルチチャネル分離モジュール(112)に送出さる。マルチチャネル分離モジュール(112)は、ダウンミックス信号と逆量子化されたバイノーラルキューとを入力とし、マルチチャネル信号を復元する。 In the decoding process, the demultiplexer (108) separates the M bitstream received via the transmission medium or storage medium from the binaural queue sub-information. The audio decoder (110) reproduces the downmix signal M. The reproduced downmix signal M is sent to the multi-channel separation module (112). The multi-channel separation module (112) receives the downmix signal and the dequantized binaural cue as inputs, and restores the multi-channel signal.
上記ビットレート低減という課題だけでなく、音声信号の聴覚上のクオリティーを保つという課題も存在する。復号された音声信号のクオリティーを向上させるための技術が数多く存在するが、そのうち非特許文献1は、音の聴覚上のクオリティーを向上させるためにエコーや残響を用いる手法を提案している。離散時間信号処理に基づく人工的な残響は、1960年代初めにその使用が始まって以来非特許文献2、音響工学の分野において広く利用されている。音響工学における残響の応用例として、室内音響学シミュレーション、音楽知覚クオリティーの向上、相関性のない出力の生成等が挙げられる。
In addition to the problem of reducing the bit rate, there is a problem of maintaining the auditory quality of the audio signal. There are many techniques for improving the quality of the decoded speech signal. Among them, Non-Patent
非特許文献1は、相関性のない出力を生成するためにフィードバック遅延システム(FDN)を用いた実装について記載している。図2はFDNの例を示す図である。FDNは、オールパスフィルタ(202)と、複数の遅延線(204〜210)と、フィードバック行列(212)とで構成される。フィードバック行列によって、各遅延線からの出力を各遅延入力にフィードバックすることが可能になる。特に、StautnerおよびPucketteが提案するFDN(非特許文献3)は、互いに非干渉的であり無相関的である出力を生成できるという望ましい特徴を有しているため、チャネル分離に利用できる。例えば図3に示すMおよびM0,revのように、互いに非干渉的であり無相関的である二つの出力は直交的なベクトル関係を有している。
Non-Patent
本発明は、従来のバイノーラルキュー符号化に基づく手法を改善することを目的とする。特に、本発明では、チャネル分離の過程において追加的に無相関信号および残響信号を用いる。これによって、チャネル分離ステージ毎に、他のステージで用いられた残響信号とは異なる残響信号を用いることが可能となる。
本発明は、符号化処理においてQMFフィルタバンクを用いて音声チャネルを時間−周波数(T/F)表現に変換するバイノーラルキュー符号化方法に関する。本明細書では、Xに対する処理が時間−周波数領域で行われる場合、Xの量または関数をX(t,f)と
表記する。
The present invention relates to a binaural cue coding method for converting a voice channel into a time-frequency (T / F) representation using a QMF filter bank in the coding process. In this specification, when the process for X is performed in the time-frequency domain, the amount or function of X is expressed as X (t, f).
チャネル分離の際、全てのチャネルに対して同じ残響信号または無相関信号(Mrev(t,f))を用いると、結果として得られる復元信号の音像は、一聴して音幅の狭さを感じさせるような改善の余地を残すものである。 When the same reverberation signal or non-correlated signal (M rev (t, f)) is used for all channels during channel separation, the sound image of the resulting restored signal can be listened to by narrowing the sound range. It leaves room for improvement that makes you feel.
空間音声符号化においてマルチチャネル信号を分離するために、パラメトリックステレオ(PS)モジュール(404)〜(412)を、図4に示すようにカスケード接続する。このような構成により、符号化・復号化処理において、受け取る残響のレベルをチャネルごとに異ならせることができる。例えば、図4の例では、チャネルCおよびチャネルLFEが受け取る残響のレベルは、他のチャネルが受け取る残響レベルより低くなる。 In order to separate multi-channel signals in spatial speech coding, parametric stereo (PS) modules (404)-(412) are cascaded as shown in FIG. With such a configuration, the level of reverberation received can be made different for each channel in the encoding / decoding process. For example, in the example of FIG. 4, the level of reverberation received by channel C and channel LFE is lower than the reverberation level received by other channels.
本発明の実施の形態1では、チャネル分離のために、ダウンミックス音声信号を入力として用いて、互いに直交的で無相関的な音声信号を生成する装置を提案する。
実施の形態2では、まずダウンミックスチャネルとオリジナルチャネルとの間のベクトル関係をバイノーラルキューから決定した後、前記ダウンミックス信号と当該ダウンミックス信号に直交である信号との間の正確なベクトル関係をシミュレートするための新しいミキシング方法を提案する。 In the second embodiment, first, after determining the vector relationship between the downmix channel and the original channel from the binaural cue, the accurate vector relationship between the downmix signal and the signal orthogonal to the downmix signal is determined. A new mixing method for simulating is proposed.
実施の形態3では、上記複数の無相関信号と上記新しいミキシング方法とを組み合わせて用いることで、チャネル分離をマルチチャネルに応用する方法を提案する。 Embodiment 3 proposes a method of applying channel separation to multichannel by using a combination of the plurality of uncorrelated signals and the new mixing method.
本発明は、チャネル分離ステージ毎に異なる残響信号(Mi,rev(t,f))を用いることで音像の向上を目指す。これによって、復元された各チャネルは、復元の時点で他のチャネルとは十分に“異なる”ことになり、結果として音幅と音像が向上する。さらに本発明では、全ての残響信号は確実に同時に生成され、チャネル分離において各チャネルは確実に同じレベルの残響信号を受け取ることができる。 The present invention aims to improve a sound image by using a reverberation signal (M i, rev (t, f)) that is different for each channel separation stage. Thereby, each restored channel is sufficiently “different” from the other channels at the time of restoration, and as a result, the sound width and the sound image are improved. Furthermore, in the present invention, all reverberation signals are reliably generated simultaneously, and in channel separation, each channel can reliably receive the same level of reverberation signal.
本発明は、従来技術による方法で生成された復元音声信号の音像と比較して改善された音像の生成を実現する。これは、チャネル分離ステージ毎に異なる残響信号を用いることができるように、複数の残響信号を生成する無相関器を実装すること、およびICCの代わりに適宜ICCHを用いることで実現される。 The present invention realizes improved sound image generation compared to the sound image of the restored sound signal generated by the method according to the prior art. This is realized by mounting a decorrelator that generates a plurality of reverberation signals so that different reverberation signals can be used for each channel separation stage, and appropriately using ICCH instead of ICC.
以下に示す実施の形態は、本発明の様々な進歩性の原理を例示しているにすぎず、以下に示す詳細な説明に対して種々変形を加えることが可能であることは、当業者であれば容易に理解するところである。従って、本発明は特許請求の範囲によってのみ制限されるものであって、以下に示す詳細な具体例よって限定されるものではない。 It will be understood by those skilled in the art that the embodiments described below merely illustrate various inventive principles of the present invention, and various modifications can be made to the detailed description given below. If there is, it is easy to understand. Therefore, the present invention is limited only by the scope of the claims, and is not limited by the specific examples shown below.
さらに、ここでは、ステレオ−モノラル−ステレオ(以降、“2-1-2ケース”と記す)および5チャネル−モノラル−5チャネル(以降、“5-1-5ケース”と記す)の2つのケースのみを示しているが、本発明はこれに限定されるものではない。これを、MオリジナルチャネルおよびNダウンミックスチャネルとして一般化することができる。 Further, here, there are two cases: stereo-mono-stereo (hereinafter referred to as “2-1-2 case”) and 5-channel-mono-5 channel (hereinafter referred to as “5-1-5 case”). However, the present invention is not limited to this. This can be generalized as an M original channel and an N downmix channel.
本発明の実施の形態1において、図2に示す無相関器(200)は、一つのダウンミックス信号から、互いに干渉性がなく無相関的な出力を生成する。無相関器の出力Mrevは、互いに無相関的であり、直交である。遅延線(204〜210)の遅延長は、図2においてm0、m1、m2、およびm3として示されるように、互いに素である必要がある。
In
非特許文献3において指摘されているように、フィードバック行列A(212)において、出力Mi,revが互いに干渉性を持たないように遅延出力をミックスする。信号間に互いに干渉性がないということは、それらの信号が互いに直交であることを意味する。このような関係を数学的に表現すると以下のようになる。 As pointed out in Non-Patent Document 3, in the feedback matrix A (212), the delay outputs are mixed so that the outputs M i, rev are not coherent with each other. That there is no interference between the signals means that the signals are orthogonal to each other. This relationship is expressed mathematically as follows.
上記数式、および以降の説明において、● は内積を表わす。 In the above formula and the following description, ● represents an inner product.
さらに、オリジナル信号(M)の残響信号(Mrev)が当該オリジナル信号(M)に対して直交であるというモデルは音響工学においては広く受け入れられている。オールパスフィルタ(202)によって、FDNで生成されるすべての信号はオリジナルダウンミックス信号Mに対して確実に直交である。これを数学的に表現すると、 Furthermore, the model that the reverberation signal (M rev ) of the original signal (M) is orthogonal to the original signal (M) is widely accepted in acoustic engineering. The all-pass filter (202) ensures that all signals generated by the FDN are orthogonal to the original downmix signal M. Expressing this mathematically,
図5において、非特許文献3が5-1-5ケースで用いているフィードバック行列Aの例を行列(500)として示している。行列(500)はユニタリー行列であり、行列要素は次の関係が満たされるように設定される。 In FIG. 5, an example of the feedback matrix A used in Non-Patent Document 3 in the case of 5-1-5 is shown as a matrix (500). The matrix (500) is a unitary matrix, and the matrix elements are set so that the following relationship is satisfied.
本発明の実施の形態2では、チャネル分離のために、バイノーラルキューを用いてダウンミックスチャネルとオリジナルチャネルとの間のベクトル関係を導出するという新しいミキシング方法を説明する。 In the second embodiment of the present invention, a new mixing method for deriving a vector relationship between a downmix channel and an original channel using binaural cues for channel separation will be described.
図6は2-1-2ケースにおける符号化処理を示す図である。変換モジュール(600)は、例えば複素QMFフィルタバンクであり、オリジナルチャネルL(t)およびR(t)を処理し、それぞれの時間−周波数表現L(t,f) およびR(t,f)を生成する。時間−周波数領域において、一つの信号は連続する複数のサブバンドを含んでおり、それぞれのサブバンドはオリジナル信号の狭い周波数帯域を表している。周波数帯域の幅にバリエーションを持たせるために、QMFフィルタバンクを複数のステージで構成することができる。これによって、より細かな分割が求められるサブバンドに対しては狭い周波数帯域を与えることができ、より粗い分割が求められるサブバンドに対しては広い周波数帯域を与えることができる。 FIG. 6 is a diagram showing an encoding process in the 2-1-2 case. The transform module (600) is, for example, a complex QMF filter bank, which processes the original channels L (t) and R (t) and converts the respective time-frequency representations L (t, f) and R (t, f). Generate. In the time-frequency domain, one signal includes a plurality of continuous subbands, and each subband represents a narrow frequency band of the original signal. In order to provide variations in the width of the frequency band, the QMF filter bank can be composed of a plurality of stages. As a result, a narrow frequency band can be given to subbands that require finer division, and a wide frequency band can be given to subbands that require coarser division.
ダウンミックスモジュール(602)は、L(t,f) およびR(t,f)を処理してダウンミックス信号M(t,f)を生成する。図6においては”重み付け”を用いた方法を示す。 The downmix module (602) processes L (t, f) and R (t, f) to generate a downmix signal M (t, f). FIG. 6 shows a method using “weighting”.
本発明では、ILDキューを用いてレベル調整を行う。モジュール(604)は、L(t,f)およびR(t,f)を処理し、ILD(l,b)およびBorderを生成する。図7に示すように、時間−周波数領域において、まずL(t,f)を周波数方向に複数の帯域(700)に分割する。それぞれの帯域は複数のサブバンドを含む。耳が持つ音響心理学的特性を利用して、低周波数帯域は、高周波数帯域よりもサブバンドの数が少なくなっており、高周波数帯域よりも細かく分割される。例えば、最適な処理を行うためには、サブバンドへの分割を行う際に分割位置を正確に微調整することが望ましいが、音響心理学の分野でよく知られている”バーク尺度”または”臨界帯域”を用いて分割を行ってもよい。 In the present invention, level adjustment is performed using an ILD queue. Module (604) processes L (t, f) and R (t, f) to generate ILD (l, b) and Border. As shown in FIG. 7, in the time-frequency domain, L (t, f) is first divided into a plurality of bands (700) in the frequency direction. Each band includes a plurality of subbands. Utilizing the psychoacoustic characteristics of the ear, the low frequency band has a smaller number of subbands than the high frequency band, and is divided more finely than the high frequency band. For example, for optimal processing, it is desirable to precisely fine-tune the division position when dividing into subbands, but the “Bark scale” or “ The division may be performed using the “critical band”.
L(t,f)およびR(t,f)はさらに時間方向にBorder(702)で周波数帯域(l,b) に分割され、これに対してEL(l,b)およびER(l,b)を計算する。本明細書においては、lは時間的区分の指標であり、bは(周波数)帯域の指標を示す。Borderの最適な配置場所は、EL(l,b)およびER(l,b)の比率の急激な変化に代表される過渡事象が発生する時間的位置である。次にモジュール(604)は、次の数式に基づきILD(l,b)を算出する。 L (t, f) and R (t, f) are further divided into frequency bands (l, b) by Border (702) in the time direction, whereas E L (l, b) and E R (l , B). In this specification, l is an index of time division, and b is an index of (frequency) band. The optimum placement location of Border is a time position where a transient event represented by a sudden change in the ratio of E L (l, b) and E R (l, b) occurs. Next, the module (604) calculates ILD (l, b) based on the following mathematical formula.
符号化処理において、モジュール(606)はL(t,f)およびR(t,f)を処理してICCキューを求める。ICC(l,b)以下の数式を用いて求められる。 In the encoding process, the module (606) processes L (t, f) and R (t, f) to obtain an ICC queue. ICC (l, b) is calculated using the following equation.
さらに、符号化処理において、モジュール(608)はL(t,f)およびR(t,f)を処理し高周波数サブバンド(>1.5kHzのみ)に対する高周波数ICCH(ICCH)キューを求める。ICCH(l,b)は以下の数式を用いて求められる。 Further, in the encoding process, module (608) processes L (t, f) and R (t, f) to determine a high frequency ICCH (ICCH) queue for the high frequency subband (> 1.5 kHz only). ICCH (l, b) is obtained using the following equation.
ICC(l,b)およびILD(l,b)は、チャネル分離において、Mに対する二つのチャネルの実際の信号強度を導出するためのゲインファクターを算出するために用いられる。ICC(l,b)に関しては、低周波数におけるLとRとの間の位相関係の計測にも用いられる。結果として、ICC(l,b)は、LとRの分離度合いの計測にも役立つ。しかしながら高周波数(通常、>1.5kHz)においては、音が分離していることによってもたらされる効果は、位相差ではなく、LおよびRの波形の類似度または相関性に影響される。よって、このような波形相関の計測にはICCH(l,b)の利用がより適している。 ICC (l, b) and ILD (l, b) are used in channel separation to calculate a gain factor for deriving the actual signal strength of the two channels for M. ICC (l, b) is also used to measure the phase relationship between L and R at low frequencies. As a result, ICC (l, b) is also useful for measuring the degree of separation between L and R. However, at high frequencies (typically> 1.5 kHz), the effect brought about by the separation of the sounds is influenced by the similarity or correlation of the L and R waveforms, not the phase difference. Therefore, the use of ICCH (l, b) is more suitable for such waveform correlation measurement.
図1におけるモジュール(102)の出力として示すように、上記バイノーラルキューは、符号化処理における副情報の一部となる。図8に示すように、バイノーラルキュー生成のための全処理は、モジュール(800)においてL(t,f)およびR(t,f)を入力として実行され、ICC(l,b)、ICCH(l,b)、Border、およびILD(l,b)が出力される。 As shown as the output of the module (102) in FIG. 1, the binaural cue becomes part of the sub information in the encoding process. As shown in FIG. 8, the entire process for generating the binaural queue is executed in the module (800) with L (t, f) and R (t, f) as inputs, and ICC (l, b), ICCH ( l, b), Border, and ILD (l, b) are output.
図9は、上述のバイノーラルキューを利用してチャネル分離を行う復号化処理を示す図である。変換モジュール(900)はダウンミックス信号M(t)を処理し、時間−周波数表現M(t,f)に変換する。この場合、変換モジュールは複素QMFフィルタバンクである。 FIG. 9 is a diagram showing a decoding process for performing channel separation using the binaural queue described above. A conversion module (900) processes the downmix signal M (t) and converts it into a time-frequency representation M (t, f). In this case, the transform module is a complex QMF filter bank.
無相関器(902)はM(t,f)を処理し、チャネル分離に用いるための直交信号を二つ生成する。図2に示されるモジュール(200)は、そのような無相関器の一例である。本実施の形態においては、無相関器としてモジュール(200)を想定し、チャネル分離に用いる信号としてM(t,f)およびM0,rev(t,f)を想定する。実際上、図9に示すS1(t,f)およびS2(t,f)はそれぞれ図2に示すM(t,f)およびM0,rev(t,f)である。 A decorrelator (902) processes M (t, f) and generates two orthogonal signals for use in channel separation. The module (200) shown in FIG. 2 is an example of such a decorrelator. In the present embodiment, a module (200) is assumed as a decorrelator, and M (t, f) and M 0, rev (t, f) are assumed as signals used for channel separation. In practice, S1 (t, f) and S2 (t, f) shown in FIG. 9 are M (t, f) and M 0, rev (t, f) shown in FIG. 2, respectively.
次に復号化処理において、モジュール(906)はモジュール(904)からの出力に基づいてチャネル分離を行う。モジュール(904)は(l,b)として示される帯域それぞれについて、バイノーラルキューBorder、ILD(l,b)、ICC(l,b)、およびICCH(l,b)からミキシング係数gL(l,b)、gR(
l,b)、θL(l,b)、およびθR(l,b
)を求める。これらのミキシング係数はモジュール(906)に送られる。モジュール(906)は、求められたミキシング係数に基づいてミキシングファクターgL1(l,b)、gL2(l,b)、gR1(l,b)、およびgR2(l,b)を算出し、チャネル分離を行う。
Next, in the decoding process, the module (906) performs channel separation based on the output from the module (904). Module (904) for each band denoted as (l, b), from binaural queues Border, ILD (l, b), ICC (l, b), and ICCH (l, b), mixing coefficients g L (l, b), g R (
l, b), θ L (l, b), and θ R (l, b
) These mixing coefficients are sent to the module (906). The module (906) calculates mixing factors g L1 (l, b), g L2 (l, b), g R1 (l, b), and g R2 (l, b) based on the obtained mixing coefficients. Channel separation.
ミキシング係数の算出およびチャネル分離についての数学的根拠については後述する。記載の簡略化を図るため、以下では(l,b)の表記を省略する。 The mathematical basis for calculating the mixing coefficient and channel separation will be described later. In order to simplify the description, the notation of (l, b) is omitted below.
図6に示すダウンミックス処理を参照して、L、R、およびMのエネルギー間の関係を以下のように導出する。 With reference to the downmix process shown in FIG. 6, the relationship between L, R, and M energies is derived as follows.
従来、ILDおよびICCは以下のように定義されている。 Conventionally, ILD and ICC are defined as follows.
このため、L’チャネルおよびR’チャネルを分離するために、Mを適切なレベルにまで増幅するのに必要なゲイン係数gLおよびgRは、上記ILDおよびICCの定義を数式EMに代入することで求めることができる。 For this reason, in order to separate the L ′ channel and the R ′ channel, the gain coefficients g L and g R necessary for amplifying M to an appropriate level are substituted with the definitions of the ILD and ICC in the equation E M. You can ask for it.
チャネル分離を完了させるために、θLおよびθRとして示される二つのチャネルの分離の度合いを求める必要がある。図10はM、LおよびR間のベクトル関係を幾何学的に示した図である(特許文献4)。ここでは、角度測定はすべて図10を参照して行うものとする。高周波数(通常、>1.5kHz)に対しては(θL+θR)をθ=cos-1(ICCH)に設定し、低周波数に対しては(θL+θR)をθ=cos-1(
ICC)に設定する。
In order to complete the channel separation, it is necessary to determine the degree of separation between the two channels, denoted as θ L and θ R. FIG. 10 is a diagram geometrically showing the vector relationship among M, L and R (Patent Document 4). Here, all angle measurements are performed with reference to FIG. For high frequencies (typically> 1.5 kHz), set (θ L + θ R ) to θ = cos −1 (ICCH), and for low frequencies (θ L + θ R ) to θ = cos − 1 (
ICC).
タンジェントの三角関数の定義を適用することで、θRは次のように導出される。 By applying the definition of the tangent trigonometric function, θ R is derived as follows.
同様に、θLは次のように導出される Similarly, θ L is derived as
モジュール(906)は、二つの無相関信号S1(t,f)およびS2(t,f)をミキシングしてLおよびRを復元することでチャネル分離を行い、L’およびR’を得る。なお、L’およびR’はオリジナルのLおよびRを複製したものではなく、シミュレーションしたものである。実施の形態1で説明したように、無相関器(200)は、|M|=|M0,rev|となるように、そして信号MおよびM0,revが直交的なベクトル関係を有すように設計されている。図3を参照し、XをLおよびRとすると、ミキシング処理は、ミ
キシングファクターgL1、gL2、gR1、およびgR2を用いてMおよびM0,revをスケーリングすることと、それに続くベクトル加算によって表される。gL1、gL2、gR1、およびgR2は、gL、gR、θL、およびθRから導出されるが、これについては後述する。
L’を導出するためには、次の2つの要件が満たされている必要がある。
The module (906) performs channel separation by mixing two uncorrelated signals S1 (t, f) and S2 (t, f) to restore L and R, and obtains L ′ and R ′. L ′ and R ′ are not duplicates of the original L and R, but are simulated. As described in the first embodiment, the decorrelator (200) has a vector relationship such that | M | = | M 0, rev | and the signals M and M 0, rev are orthogonal. Designed to be Referring to FIG. 3, where X is L and R, the mixing process is to scale M and M 0, rev using mixing factors g L1 , g L2 , g R1 , and g R2 , followed by a vector. Represented by addition. g L1 , g L2 , g R1 , and g R2 are derived from g L , g R , θ L , and θ R , which will be described later.
In order to derive L ′, the following two requirements must be satisfied.
および and
この二つの連立方程式gL1およびgL2を解くことで、左チャネルL’を導出するためのミキシングファクターを求めることができる。 By solving these two simultaneous equations g L1 and g L2 , a mixing factor for deriving the left channel L ′ can be obtained.
同様に、右チャネルR’を導出するためのミキシングファクターを以下のように求めることができる。 Similarly, the mixing factor for deriving the right channel R ′ can be obtained as follows.
上記のようにして導出されたミキシングファクターを用い、L’およびR’を以下のように表現できる。 Using the mixing factor derived as described above, L ′ and R ′ can be expressed as follows.
モジュール(908)は、分離されたチャネルL’およびR’を逆変換し、時間領域信号L’(t)およびR’(t)を形成する。 Module (908) inverse transforms the separated channels L 'and R' to form time domain signals L '(t) and R' (t).
本発明の実施の形態3では、実施の形態1に示した無相関器(200)と、実施の形態2に示した新しいミキシング方法とをマルチチャネルに対するチャネル分離に応用する方法を示す。 In the third embodiment of the present invention, a method is shown in which the decorrelator (200) shown in the first embodiment and the new mixing method shown in the second embodiment are applied to channel separation for multichannel.
本発明の実施の形態2で説明したように、チャネルは、二つの直交信号に対して適切なミキシングファクターを付加することで復元される。復元された信号Xは通常、次のようになる。 As described in Embodiment 2 of the present invention, the channel is restored by adding an appropriate mixing factor to the two orthogonal signals. The restored signal X is usually as follows:
この数式において、gxはゲイン係数を示し、θxは分離の度合いを示す。 In this equation, g x represents a gain coefficient, and θ x represents a degree of separation.
本実施の形態では、5-1-5ケースを用いて説明を行う。また、以下の数式をダウンミックス用の数式として想定する。 In the present embodiment, the description will be made using the 5-1-5 case. Further, the following formula is assumed as a formula for downmix.
上記数式において、LおよびRは二つのフロント(前方)チャネルを示し、LsおよびRsは二つのリア(後方)チャネルを示し、Cはセントラル(中央)チャネルを示す。 In the above equation, L and R indicate two front (front) channels, L s and R s indicate two rear (rear) channels, and C indicates a central (center) channel.
図11は5-1-5ケースにおける符号化処理を示す図である。同処理においては、BCC符号化モジュール(1100)〜(1106)を用いて異なる4通りのチャネルの組合せに対して処理を行うことで4つのバイノーラルキューセットを生成する。一つ目のバイノーラルキューセットは、モジュール(1100)においてCチャネルと中間ダウンミックスチャネル(L+0.707Ls+R+0.707Rs)を入力として生成される。モジュール(1102)〜(1106)も同様の機能を持つが、それぞれ異なる入力を用いることでそれぞれ異なるバイノーラルキューセットを生成する。生成された4つのバイノーラルキューセットは、マルチステージ復号化処理においてダウンミックスチャネルMをL、R、Ls、RsおよびCに繰り返し分離するために用いられる。 FIG. 11 is a diagram showing an encoding process in the 5-1-5 case. In this process, four binaural queue sets are generated by performing processing on four different combinations of channels using the BCC encoding modules (1100) to (1106). The first binaural cue set is generated in the module (1100) with the C channel and the intermediate downmix channel (L + 0.707L s + R + 0.707R s ) as inputs. Modules (1102) to (1106) have similar functions, but generate different binaural cue sets by using different inputs. The generated four binaural queue sets are used to repeatedly separate the downmix channel M into L, R, L s , R s, and C in the multistage decoding process.
図12はチャネル分離の前に実行される復号化処理を示す図である。同前処理においては、本発明の実施の形態1と同様に、ダウンミックスチャネルMに対してQMF変換(1200)および無相関処理(1202)を行い、複数の直交残響信号Mi,rev(t,f)を生成する(i=0、1、2、3)。 FIG. 12 is a diagram showing a decoding process executed before channel separation. In the preprocessing, as in the first embodiment of the present invention, QMF conversion (1200) and decorrelation processing (1202) are performed on the downmix channel M, and a plurality of orthogonal reverberation signals M i , rev (t , F) (i = 0, 1, 2, 3).
バイノーラルキューセット1をMCCモジュール(1204)において処理し、二つのミキシングファクターセット(gc、θc)および(gM1、θM1)を生成する。この処理は、M(t,f)をC(t,f)とM1(t,f)とに分離するために行われる。ここで、M1(t,f)=(L(t,f)+0.707Ls(t,f)+R(t,f)+0.707Rs(t,f))/3.414である。[数19]より、M(t,f)=0.293C(t,f)+0.707M1(t,f)を求めることは容易であり、重み付けの値として0.293および0.707をC(t,f)およびM1(t,f)にそれぞれ用いる。 Binaural queue set 1 is processed in MCC module (1204) to generate two mixing factor sets (g c , θ c ) and (g M1 , θ M1 ). This process is performed to separate M (t, f) into C (t, f) and M 1 (t, f). Here, M 1 (t, f) = (L (t, f) + 0.707L s (t, f) + R (t, f) + 0.707R s (t, f)) / 3.414. From [Equation 19], it is easy to obtain M (t, f) = 0.293C (t, f) + 0.707M 1 (t, f), and 0.293 and 0.707 are used as weighting values. Used for C (t, f) and M 1 (t, f), respectively.
バイノーラルキューセット2をMCCモジュール(1206)において処理し、二つのミキシングファクターセット(gM2、θM2)および(gM3、θM3)を生成する。この処理はM1(t,f)をM2(t,f)=(L(t,f)+R(t,f))/2とM3(t,f)=(Ls(t,f)+Rs(t,f))/2とに分離するために行われる。[数19]より、M1(t,f)=0.586M2(t,f)+0.414M3(t,f)を求めることは容易であり、重み付けの値として0.586および0.414をM2(t,f)およびM3(t,f)にそれぞれ用いる。 Binaural cue set 2 is processed in MCC module (1206) to generate two mixing factor sets (g M2 , θ M2 ) and (g M3 , θ M3 ). In this process, M 1 (t, f) is changed to M 2 (t, f) = (L (t, f) + R (t, f)) / 2 and M 3 (t, f) = (L s (t, f, f) + R s (t, f)) / 2. From [Equation 19], it is easy to obtain M 1 (t, f) = 0.586M 2 (t, f) + 0.414M 3 (t, f), and 0.586 and 0. 414 is used for M 2 (t, f) and M 3 (t, f), respectively.
バイノーラルキューセット3をMCCモジュール(1208)において処理し、二つのミキシングファクターセット(gL、θL)および(gR、θR)を生成する。この処理はM2(t,f)をL(t,f)とR(
t,f)とに分離するために行われる。M2(t,f)=0.5L(t,f)+0.5R(t,f)であるため、重み付けの値として0.5を用いる。
The binaural cue set 3 is processed in the MCC module (1208) to generate two mixing factor sets (g L , θ L ) and (g R , θ R ). This process changes M 2 (t, f) to L (t, f) and R (
t, f). Since M 2 (t, f) = 0.5L (t, f) + 0.5R (t, f), 0.5 is used as the weighting value.
バイノーラルキューセット4をMCCモジュール(1210)において処理し、二つのミキシングファクターセット(gLs、θLs)および(gRs、θRs)を生成する。この処理はM3(t,f)をLs(t,f)とRs(t,f)とに分離するために行われる。M3(t,f)=0.5Ls(t,f)+0.5Rs(t,f)であるため、重み付けの値として0.5を用いる。 The binaural queue set 4 is processed in the MCC module (1210) to generate two mixing factor sets (g Ls , θ Ls ) and (g Rs , θ Rs ). This process is performed to separate M 3 (t, f) into L s (t, f) and R s (t, f). Since M 3 (t, f) = 0.5L s (t, f) + 0.5R s (t, f), 0.5 is used as the weighting value.
図13は上記マルチステージチャネル分離および復号化処理を示す図である。チャネル分離モジュール(1302)〜(1308)は、ダウンミックス信号M(t,f)および中間信号Mi(t,f)(i=0、1、2、3)と、無相関器(1202)によって生成された残響信号Mi,rev(t,f)(i=0、1、2、3)とに関連する一連の反復演算において、ミキシング係数の組合せを行う。各チャネル分離モジュールの出力は次のチャネル分離モジュールの入力となることがある。これは出力が以下のいずれかの場合に起こる。すなわち、出力が合成信号であって、これをさらに分離することで個々の音声信号が得られる場合、またはさらに分離できる他の合成信号が得られる場合である。具体的には、モジュール(1302)はM(t,f)、M0,rev(t,f)、(gc,θc)および(gM1、θM1)を取り込んで処理し、M(t,f)をM1(t,f)とC’(t,f)とに分離する。この場合、M1(t,f)は複数の信号を含むため、モジュール(1304)に渡され、さらにチャネル分離される。一方、C’(t,f)はセンターチャネルの復元信号であるため、モジュール(1310)に渡され、時間領域表現に逆変換される。モジュール(1304)〜(1308)においても同様の処理が行われる。チャネル分離モジュールが復元チャネルを得るために用いる数式は以下のとおりである。 FIG. 13 shows the multi-stage channel separation and decoding process. The channel separation modules (1302) to (1308) include a downmix signal M (t, f) and an intermediate signal M i (t, f) (i = 0, 1, 2, 3) and a decorrelator (1202). In the series of iterative operations associated with the reverberation signal M i, rev (t, f) (i = 0, 1, 2, 3) generated by the above, the mixing coefficients are combined. The output of each channel separation module may be the input of the next channel separation module. This happens when the output is one of the following: That is, it is a case where the output is a synthesized signal, and individual audio signals can be obtained by further separating them, or another synthesized signal that can be further separated. Specifically, the module (1302) captures and processes M (t, f), M 0, rev (t, f), (g c , θ c ) and (g M1 , θ M1 ), and M ( t, f) is separated into M1 (t, f) and C ′ (t, f). In this case, since M1 (t, f) includes a plurality of signals, it is passed to the module (1304) and further channel-separated. On the other hand, since C ′ (t, f) is a center channel restoration signal, it is passed to the module (1310) and inversely transformed into a time domain representation. Similar processing is performed in the modules (1304) to (1308). The formula used by the channel separation module to obtain the recovered channel is as follows:
中間信号は以下のようになる。 The intermediate signal is as follows.
有効なチャネル分離の条件として、一つのステージで分離された二つのチャネル間の相関性が、BCCから推測されたものである必要がある。この条件を満たしているかどうかは以下のように証明できる。 As a condition for effective channel separation, the correlation between two channels separated in one stage needs to be inferred from BCC. Whether this condition is satisfied can be proved as follows.
上記チャネル分離は有効である。なぜなら、 The channel separation is effective. Because
図13に示す逆QMFモジュール(1310)〜(1318)を用いて、全ての合成チャネルを時間領域信号に変換することができる。 Using the inverse QMF modules (1310) to (1318) shown in FIG. 13, all combined channels can be converted to time domain signals.
(その他変形例)
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(Other variations)
Although the present invention has been described based on the above embodiment, it is needless to say that the present invention is not limited to the above embodiment. The following cases are also included in the present invention.
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。 (1) Each of the above devices is specifically a computer system including a microprocessor, a ROM, a RAM, a hard disk unit, a display unit, a keyboard, a mouse, and the like. A computer program is stored in the RAM or hard disk unit. Each device achieves its functions by the microprocessor operating according to the computer program. Here, the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。 (2) A part or all of the constituent elements constituting each of the above-described devices may be configured by one system LSI (Large Scale Integration). The system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, ROM, RAM, and the like. . A computer program is stored in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。 (3) Part or all of the constituent elements constituting each of the above devices may be configured from an IC card that can be attached to and detached from each device or a single module. The IC card or the module is a computer system including a microprocessor, a ROM, a RAM, and the like. The IC card or the module may include the super multifunctional LSI described above. The IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。 (4) The present invention may be the method described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。 The present invention also provides a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray Disc). ), Recorded in a semiconductor memory or the like. The digital signal may be recorded on these recording media.
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。 In the present invention, the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like.
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。 The present invention may be a computer system including a microprocessor and a memory, wherein the memory stores the computer program, and the microprocessor operates according to the computer program.
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。 In addition, the program or the digital signal is recorded on the recording medium and transferred, or the program or the digital signal is transferred via the network or the like, and executed by another independent computer system. It is good.
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。 (5) The above embodiment and the above modifications may be combined.
本発明は、トレーニング用シミュレータ、カーオーディオシステム、家庭用またはビジネス用のオーディオ・ビデオシステム等に適用可能である。 The present invention is applicable to training simulators, car audio systems, home or business audio / video systems, and the like.
600 変換モジュール
602 ダウンミックスモジュール
604 ILDモジュール
606 ICCモジュール
608 ICCHモジュール
800 2−1BCC符号化モジュール
900 QMFフィルタバンク
902 無相関器
904 ミキシング係数算出モジュール
906 チャネル分離モジュール
908 QMF-1フィルタバンク
600
Claims (13)
(a) オールパスフィルタを用いて前記音声信号を処理して、中間残響信号を生成し、
(b) フィードバック遅延ネットワーク(FDN)を用いて前記中間残響信号を処理して、複数の残響信号を生成する
ことを特徴とする装置。 An apparatus for processing a single audio signal to generate a plurality of reverberation signals that are non-interfering with each other,
(A) processing the audio signal using an all-pass filter to generate an intermediate reverberation signal;
(B) The intermediate reverberation signal is processed using a feedback delay network (FDN) to generate a plurality of reverberation signals.
ことを特徴とする装置。 The apparatus according to claim 1, wherein the FDN includes a feedforward delay line having a delay length that is relatively prime, and a feedback path having a feedback matrix.
ことを特徴とする装置。 3. The apparatus according to claim 1, wherein the feedback matrix is (1) a unitary matrix, (2) the energy of each reverberation signal is the same, and each reverberation signal is non-interfering with each other. A device characterized by having matrix elements that are orthogonal.
(a) 前記複数の信号を用いてダウンミックス信号を生成し、
(b) 前記複数の信号とダウンミックス信号とを、ハイブリッド時間−周波数表現に変換し、それらを周波数軸に沿って複数の帯域に分割し、
(c) 反復的に行われるマルチステージ復号化処理において、前記ダウンミックス信号を個々の信号に分離するためのチャネル分離ステージを導出し、
(d)各チャネル分離ステージにおいて、前記複数の帯域を時間方向にさらに周波数領域に分割する境界(Border)を決定し、
(e) 各チャネル分離ステージにおいて、前記複数の信号およびダウンミックス信号を用いて、周波数帯域毎のBC情報を算出する
ことを特徴とする装置。 An apparatus for encoding a plurality of signals into a bitstream composed of a combined downmix signal and binaural cue (BC) information,
(A) generating a downmix signal using the plurality of signals;
(B) converting the plurality of signals and the downmix signal into a hybrid time-frequency representation and dividing them into a plurality of bands along the frequency axis;
(C) Deriving a channel separation stage for separating the downmix signal into individual signals in an iteratively performed multistage decoding process;
(D) In each channel separation stage, determine a boundary (Border) that further divides the plurality of bands into a frequency domain in the time direction;
(E) In each channel separation stage, BC information for each frequency band is calculated using the plurality of signals and the downmix signal.
ことを特徴とする装置。 5. The apparatus according to claim 4, wherein in each channel separation stage, an input composite downmix signal composed of a plurality of signals is (1) another composite signal composed of a plurality of signals, or (2). A device that separates two signals, which are one signal.
ことを特徴とする装置。 5. The apparatus according to claim 4, wherein the boundary is located at a temporal position where a transient event occurs, represented by a large change in ILD.
ことを特徴とする装置。 5. The apparatus according to claim 4, wherein the binaural queue information includes an inter-channel level difference queue between two signals to be separated, an inter-channel coherence queue, and a high-frequency inter-channel coherence queue, as necessary. The apparatus characterized by including.
ことを特徴とする装置。 The apparatus according to claim 4 and 7, wherein the ILD queue is an energy ratio between two signals separated in one frequency band.
ことを特徴とする装置。 8. The apparatus according to claim 4 and 7, wherein the ICC queue is used to measure a phase correlation between two signals separated in one frequency band. .
ことを特徴とする装置。 8. The apparatus according to claim 4 and claim 7, wherein the ICCH queue is used to measure a waveform correlation, not a phase, between two signals separated in one frequency band. Equipment.
(a) 前記合成ダウンミックス信号をハイブリッド時間−周波数表現に変換し、それらを周波数軸に沿って複数の帯域に分割し、
(b) 請求項1に記載の装置の実装を前記ダウンミックス信号に対して適用して、チャネル分離に用いる複数の残響無相関信号を生成し、
(c) 各チャネル分離ステージにおいて、ミキシング係数算出(MCC)モジュールを用いて、重み係数と、Border、ILD,ICC、およびICCHを含むバイノーラルキューとで構成される全てのセットを処理してミキシング係数を導出し、
(d) 各チャネル分離ステージにおいて、チャネル分離(CS)モジュールで前記合成ダウンミックス信号と、前記残響無相関信号のうちいずれかの残響無相関信号とを前記ミキシング係数を用いて変調し、それらを、それぞれが単一の信号、または合成信号である二つの出力信号に分離し、
(e) 前記出力信号が合成信号である場合、他のCSモジュールにおいて、当該出力信号を、それまで未使用の残響信号を用いて、全ての合成信号が個々の信号に分離されるまで繰り返し処理し、
(f) 全ての個々の信号を時間−周波数表現から時間領域に逆変換して、マルチチャネル音声信号を復元する
ことを特徴とする装置。 An apparatus for decoding a bitstream composed of a synthesized downmix signal and BC information into a plurality of individual signals using weighting factors,
(A) converting the synthesized downmix signal into a hybrid time-frequency representation, dividing them into a plurality of bands along the frequency axis;
(B) applying the apparatus implementation of claim 1 to the downmix signal to generate a plurality of reverberant uncorrelated signals for use in channel separation;
(C) At each channel separation stage, a mixing coefficient calculation (MCC) module is used to process all sets consisting of weighting coefficients and binaural cues including Border, ILD, ICC, and ICCH to mix the coefficients. Is derived,
(D) In each channel separation stage, a channel separation (CS) module modulates the synthesized downmix signal and any one of the reverberant uncorrelated signals using the mixing coefficient, , Separated into two output signals, each of which is a single signal or a composite signal,
(E) When the output signal is a composite signal, in another CS module, the output signal is repeatedly processed until all the composite signals are separated into individual signals using a reverberation signal that has not been used so far. And
(F) A device characterized by reconstructing a multi-channel audio signal by inversely transforming all individual signals from a time-frequency representation into the time domain.
ことを特徴とする装置。 12. Apparatus according to claim 1, 3 and 11, wherein the plurality of reverberant uncorrelated signals are orthogonal to each other and to the input downmix signal.
ことを特徴とする装置。
12. The apparatus according to claim 11, wherein the MMC determines two mixing coefficient sets based on the BC information and weighting coefficient applied to each of two output signals output in a corresponding channel separation stage. A device characterized by generating.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005148763A JP2006325162A (en) | 2005-05-20 | 2005-05-20 | Device for performing multi-channel space voice coding using binaural queue |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005148763A JP2006325162A (en) | 2005-05-20 | 2005-05-20 | Device for performing multi-channel space voice coding using binaural queue |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006325162A true JP2006325162A (en) | 2006-11-30 |
Family
ID=37544461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005148763A Pending JP2006325162A (en) | 2005-05-20 | 2005-05-20 | Device for performing multi-channel space voice coding using binaural queue |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006325162A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011114932A1 (en) | 2010-03-17 | 2011-09-22 | ソニー株式会社 | Audio-processing device, audio-processing method and program |
JP2012124616A (en) * | 2010-12-06 | 2012-06-28 | Fujitsu Ten Ltd | Sound field control apparatus |
JP2013511062A (en) * | 2009-11-12 | 2013-03-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Parametric encoding and decoding |
JP2015506653A (en) * | 2012-02-24 | 2015-03-02 | ドルビー・インターナショナル・アーベー | Audio processing |
US9818411B2 (en) | 2008-07-14 | 2017-11-14 | Electronics And Telecommunications Research Institute | Apparatus for encoding and decoding of integrated speech and audio |
-
2005
- 2005-05-20 JP JP2005148763A patent/JP2006325162A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818411B2 (en) | 2008-07-14 | 2017-11-14 | Electronics And Telecommunications Research Institute | Apparatus for encoding and decoding of integrated speech and audio |
US10403293B2 (en) | 2008-07-14 | 2019-09-03 | Electronics And Telecommunications Research Institute | Apparatus for encoding and decoding of integrated speech and audio |
US10714103B2 (en) | 2008-07-14 | 2020-07-14 | Electronics And Telecommunications Research Institute | Apparatus for encoding and decoding of integrated speech and audio |
US11705137B2 (en) | 2008-07-14 | 2023-07-18 | Electronics And Telecommunications Research Institute | Apparatus for encoding and decoding of integrated speech and audio |
JP2013511062A (en) * | 2009-11-12 | 2013-03-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Parametric encoding and decoding |
WO2011114932A1 (en) | 2010-03-17 | 2011-09-22 | ソニー株式会社 | Audio-processing device, audio-processing method and program |
JP2011197105A (en) * | 2010-03-17 | 2011-10-06 | Sony Corp | Audio-processing device, audio-processing method and program |
CN102792369A (en) * | 2010-03-17 | 2012-11-21 | 索尼公司 | Audio-processing device, audio-processing method and program |
US8977541B2 (en) | 2010-03-17 | 2015-03-10 | Sony Corporation | Speech processing apparatus, speech processing method and program |
JP2012124616A (en) * | 2010-12-06 | 2012-06-28 | Fujitsu Ten Ltd | Sound field control apparatus |
JP2015506653A (en) * | 2012-02-24 | 2015-03-02 | ドルビー・インターナショナル・アーベー | Audio processing |
US9728194B2 (en) | 2012-02-24 | 2017-08-08 | Dolby International Ab | Audio processing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5185340B2 (en) | Apparatus and method for displaying a multi-channel audio signal | |
EP1906706B1 (en) | Audio decoder | |
RU2409911C2 (en) | Decoding binaural audio signals | |
TWI415111B (en) | Spatial decoder unit, spatial decoder device, audio system, consumer electronic device, method of producing a pair of binaural output channels, and computer readable medium | |
US8296158B2 (en) | Methods and apparatuses for encoding and decoding object-based audio signals | |
JP4934427B2 (en) | Speech signal decoding apparatus and speech signal encoding apparatus | |
TWI404429B (en) | Method and apparatus for encoding/decoding multi-channel audio signal | |
JP4918490B2 (en) | Energy shaping device and energy shaping method | |
JP6329629B2 (en) | Method and apparatus for compressing and decompressing sound field data in a region | |
JP5053849B2 (en) | Multi-channel acoustic signal processing apparatus and multi-channel acoustic signal processing method | |
CN116741188A (en) | Stereo audio encoder and decoder | |
JP4988716B2 (en) | Audio signal decoding method and apparatus | |
JP2015528925A (en) | Audio signal processing apparatus and method | |
KR100745688B1 (en) | Apparatus for encoding and decoding multichannel audio signal and method thereof | |
JP2006325162A (en) | Device for performing multi-channel space voice coding using binaural queue | |
JP6686015B2 (en) | Parametric mixing of audio signals | |
JP2006323314A (en) | Apparatus for binaural-cue-coding multi-channel voice signal | |
Baumgarte et al. | Audio coder enhancement using scalable binaural cue coding with equalized mixing | |
JP2007104601A (en) | Apparatus for supporting header transport function in multi-channel encoding | |
WO2007080224A1 (en) | Decoding of binaural audio signals | |
MX2008008829A (en) | Decoding of binaural audio signals |