JP2008538239A - Apparatus and method for generating data streams and multi-channel representations - Google Patents
Apparatus and method for generating data streams and multi-channel representations Download PDFInfo
- Publication number
- JP2008538239A JP2008538239A JP2008503398A JP2008503398A JP2008538239A JP 2008538239 A JP2008538239 A JP 2008538239A JP 2008503398 A JP2008503398 A JP 2008503398A JP 2008503398 A JP2008503398 A JP 2008503398A JP 2008538239 A JP2008538239 A JP 2008538239A
- Authority
- JP
- Japan
- Prior art keywords
- channel
- fingerprint
- block
- information
- data stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 81
- 238000012545 processing Methods 0.000 claims abstract description 50
- 230000001360 synchronised effect Effects 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims description 38
- 238000012360 testing method Methods 0.000 claims description 28
- 230000005540 biological transmission Effects 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims 2
- 230000000903 blocking effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 20
- 230000005236 sound signal Effects 0.000 description 32
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 239000000872 buffer Substances 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000003111 delayed effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Synchronisation In Digital Transmission Systems (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Television Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Studio Circuits (AREA)
Abstract
マルチチャネル補助データを含むデータストリームおよび1以上の基本チャネル(3)に関するデータを含むデータストリームを時刻同期するために、前記1以上の基本チャネルに対するフィンガープリント情報の計算(2)をエンコーダで行い、前記フィンガープリント情報を前記マルチチャネル補助データと時間的に対応付けてデータストリームに挿入(4)する。デコーダでは、フィンガープリント情報を前記1以上の基本チャネルから計算し、データストリームから抽出したフィンガープリント情報と組合わせて、前記マルチチャネル補助情報を含むデータストリームおよび前記1以上の基本チャネルを含むデータストリームとの間のタイムオフセットを、例えば相関処理により計算し補間し、同期マルチチャネル表現を生成する。 In order to time-synchronize the data stream including multi-channel auxiliary data and the data stream including data related to one or more basic channels (3), the encoder performs calculation (2) of fingerprint information for the one or more basic channels, The fingerprint information is temporally associated with the multi-channel auxiliary data and inserted into the data stream (4). In the decoder, fingerprint information is calculated from the one or more basic channels, and combined with the fingerprint information extracted from the data stream, the data stream including the multi-channel auxiliary information and the data stream including the one or more basic channels The time offset between and is calculated and interpolated, for example, by correlation processing to generate a synchronized multi-channel representation.
Description
本発明は音声信号の処理に関し、特に、1以上の基本チャネルおよび/またはダウンミックスチャネルおよびマルチチャネル補助情報に基づいて、元のマルチチャネル信号をマルチチャネル再生するマルチチャネル処理技術に関する。 The present invention relates to audio signal processing, and more particularly to multi-channel processing technology for multi-channel reproduction of an original multi-channel signal based on one or more basic channels and / or downmix channels and multi-channel auxiliary information.
近年、データ量の減少により音声信号をこれまでになくより効率的に送信したり、また、マルチチャネル技術等を利用した改良により、聴く楽しみをより向上するような技術が開発されている。このような、公知の送信技術の改良例が、バイノーラルキュー符号化(BCC)および「空間音声符号化」として近年知られており、ジェイ・ヘレ、シー・ファーラー、エス・ディッシュ、シー・エーテル、ジェイ・ヒルバート、エイ・ホールツァー、ケイ・リンツメイアー、シー・シュプレンガー、ピー・クルーンによる「空間音声符号化:効率的で互換性のある次世代マルチチャネル音声符号化」と題するAES予稿6186、第117回AES大会、2004年、サンフランシスコ(J. Herre, C. Faller, S. Disch, C. Ertel, J. Hilbert, A. Hoelzer, K. Linzmeier, C. Sprenger, P. Kroon: “Spatial Audio Coding: Next Generation Efficient and Compatible Coding of Multi-Channel Audio”, 117th AES Convention, San Francisco 2004, Preprint 6186)に記載されている。 In recent years, a technology has been developed that transmits audio signals more efficiently than ever due to a reduction in the amount of data, and that further enhances listening enjoyment through improvements using multi-channel technology and the like. Such improvements to known transmission techniques have recently been known as binaural cue coding (BCC) and “spatial speech coding”, Jay Helle, Sea Farrer, S Dish, Sea Ether, AES Proposal 6186 entitled "Spatial Speech Coding: Efficient and Compatible Next-Generation Multi-Channel Speech Coding" by Jay Hilbert, Ai Holzer, Kay Linzmeier, Sea Sprengaler, P. Kroon 117th AES Convention, 2004, San Francisco (J. Herre, C. Faller, S. Disch, C. Ertel, J. Hilbert, A. Hoelzer, K. Linzmeier, C. Sprenger, P. Kroon: “Spatial Audio Coding: Next Generation Efficient and Compatible Coding of Multi-Channel Audio ”, 117th AES Convention, San Francisco 2004, Preprint 6186).
マルチチャネル音声信号の送信時に必要なデータ量を減少するための様々な技術について以下に詳細に述べる。 Various techniques for reducing the amount of data required when transmitting a multi-channel audio signal are described in detail below.
これらの技術はジョイントステレオ技術と呼ばれる。この目的で、図3に示すジョイントステレオ装置60を参照する。この装置は、例えばインテンシティステレオ(IS)技術、もしくはバイノーラルキュー符号化技術(BCC)を実行する装置である。この装置は、一般に2つ以上のチャネルCH1、CH2、...、CHnを入力信号として受信し、単一の搬送波チャネルおよびパラメトリックマルチチャネル情報を出力する。パラメトリックデータは、元のチャネル(CH1、CH2、...、CHn)の近似値をデコーダで計算できるように規定される。
These techniques are called joint stereo techniques. For this purpose, reference is made to the
通常、搬送波チャネルは、基底信号を比較的良好に表すサブバンドサンプル、スペクトル係数、時間領域サンプル等を含む。一方、パラメトリックデータは、これらのサンプルやスペクトル係数を含まないが、乗法、時間シフティング、周波数シフティングによる重み付け等の所定の再生アルゴリズムを制御するための制御パラメータを含む。このように、パラメトリックマルチチャネル情報は信号または関連するチャネルの比較的大雑把な表現を含む。数値で表すと、搬送波チャネルが必要とするデータ量は約60〜70kbit/sの範囲にあり、一方、パラメトリック補助情報がチャネルに対し必要とするデータ量は1.5〜2.5kbit/sの範囲にある。なお、上記の数値は圧縮データに対するものである。当然のことながら、非圧縮CDチャネルはおよそ10倍程度のデータ量を必要とする。パラメトリックデータの例としては、後述のとおり、既知のスケールファクタ、インテンシティステレオ情報またはBCCパラメータがある。 Typically, the carrier channel includes subband samples, spectral coefficients, time domain samples, etc. that represent the base signal relatively well. On the other hand, the parametric data does not include these samples and spectral coefficients, but includes control parameters for controlling a predetermined reproduction algorithm such as weighting by multiplication, time shifting, and frequency shifting. Thus, parametric multi-channel information includes a relatively rough representation of the signal or associated channel. Expressed numerically, the amount of data required by the carrier channel is in the range of about 60-70 kbit / s, while the amount of data required by the parametric auxiliary information for the channel is 1.5-2.5 kbit / s. Is in range. The above numerical values are for compressed data. Naturally, an uncompressed CD channel requires about 10 times the amount of data. Examples of parametric data include known scale factors, intensity stereo information or BCC parameters, as will be described later.
インテンシティステレオ符号化技術については、ジェイ・ヘレ、ケイ・エイチ・ブランデンブルグ、ディー・レデラーによる「インテンシティ・ステレオ符号化」と題するAES予稿3799、1994年2月、アムステルダム(AES Preprint 3799 "Intensity Stereo Coding", J. Herre, K.H. Brandenburg, D. Lederer, February 1994, Amsterdam)に記載されている。一般には、インテンシティステレオの概念は、両方のステレオ音声チャネルのデータに適用される主軸変換に基づく。データポイントのほとんどが第1の主軸の周りに集中している場合、符号化利得は、符号化の前にある角度だけ両方の信号を回転させることにより達成できる。しかしながら、この方法は、実際のステレオ再生技術では必ずしもうまくいかない。したがって、この方法を改善し、第2の直交成分をビットストリームでの送信から除外する。その結果、左右のチャネルについて再生された信号は、同じ伝送信号を様々に重み付けもしくはスケーリングしたバージョンからなる。にもかかわらず、これら再生された信号は、振幅が異なるものの位相情報については同一である。しかしながら、元の音声チャネルのエネルギ時間エンベロープは、一般に周波数選択的に作用する選択的スケーリング動作により維持される。このことは、支配的な空間情報がエネルギエンベロープにより決まる、人間の高周波での音声知覚と同じである。 Intensity stereo coding is discussed in the AES draft 3799 entitled “Intensity Stereo Coding” by J. Helle, KH Brandenburg and Dee Lederer, February 1994, Amsterdam (AES Preprint 3799 “Intensity Stereo”). Coding ", J. Herre, KH Brandenburg, D. Lederer, February 1994, Amsterdam). In general, the concept of intensity stereo is based on a principal axis transformation applied to the data of both stereo audio channels. If most of the data points are concentrated around the first major axis, coding gain can be achieved by rotating both signals by an angle prior to coding. However, this method does not always work with an actual stereo reproduction technique. Therefore, this method is improved and the second orthogonal component is excluded from transmission in the bitstream. As a result, the signal reproduced for the left and right channels consists of variously weighted or scaled versions of the same transmission signal. Nevertheless, these reproduced signals have the same phase information with different amplitudes. However, the energy time envelope of the original voice channel is maintained by a selective scaling operation that generally acts frequency selective. This is the same as human speech perception at high frequencies, where the dominant spatial information is determined by the energy envelope.
また、実際の信号送信、つまり搬送波チャネルは、両方の成分を回転させるのではなく、左右チャネルの和信号から生成される。さらに、この処理、すなわちスケーリングを行うためにインテンシティステレオパラメータを生成する処理は、周波数選択的に行われる。つまり、スケール係数帯ごと、エンコーダ周波数区分ごとに独立して行われる。好ましくは、両方のチャネルを結合して、1つの結合したチャネルもしくは「搬送波」チャネルを形成し、結合されたチャネルに追加してインテンシティステレオ情報を形成する。インテンシティステレオ情報は、第1のチャネルのエネルギ、第2のチャネルのエネルギ、もしくは結合チャネルのエネルギに基づく。 Also, the actual signal transmission, ie the carrier channel, is generated from the sum signal of the left and right channels rather than rotating both components. Further, this process, that is, the process of generating intensity stereo parameters for performing scaling, is performed in a frequency selective manner. That is, it is performed independently for each scale coefficient band and for each encoder frequency section. Preferably, both channels are combined to form one combined channel or “carrier” channel and added to the combined channel to form intensity stereo information. The intensity stereo information is based on the energy of the first channel, the energy of the second channel, or the energy of the combined channel.
BCC技術については、ティー・ファーラー、エフ・バウムガルトの「ステレオおよびマルチチャネル音声圧縮に適用するバイノーラルキュー符号化」と題するAES大会論文5574、2002年5月、ミュンヘン(AES convention paper 5574 “Binaural Cue Coding applied to stereo and multi-channel audio compression”, T. Faller, F. Baumgarte, May 2002, Munich)に記載されている。BBC符号化においては、DFT変換に基づいて、複数の音声入力チャネルをオーバーラッピング窓を用いてスペクトラム表現に変換する。その結果得られるスペクトルは、重ならない部分に分割され、それぞれがインデックスを有する。各区分は、等価直角帯域幅(ERB)に比例するバンド幅を有する。各区分および各フレームkについて、チャネル間レベル差(ICLD)およびチャネル間時間差(ICTD)が決定される。ICLDおよびICTDは量子化され符号化されて、最終的には補助情報としてのBBCビットストリームに到達する。チャネル間レベル差およびチャネル間時間差は、各チャネルごとに参照チャネル対して与えられる。そして、処理をする信号の特定の区分に基づく所定の方式に従って、パラメータを計算する。 Regarding BCC technology, AES convention paper 5574 entitled "Binaural Cue Coding", AES convention paper 5574 entitled "Binaural cue coding applied to stereo and multi-channel audio compression" by T. Farrer, EF Baumgart. applied to stereo and multi-channel audio compression ", T. Faller, F. Baumgarte, May 2002, Munich). In BBC encoding, a plurality of audio input channels are converted into a spectrum representation using an overlapping window based on DFT conversion. The resulting spectrum is divided into non-overlapping parts, each having an index. Each section has a bandwidth that is proportional to the Equivalent Right Angle Bandwidth (ERB). For each partition and each frame k, an inter-channel level difference (ICLD) and an inter-channel time difference (ICTD) are determined. ICLD and ICTD are quantized and encoded, and finally arrive at the BBC bit stream as auxiliary information. The inter-channel level difference and the inter-channel time difference are given to the reference channel for each channel. Then, the parameters are calculated according to a predetermined method based on a specific section of the signal to be processed.
デコーダ側では、デコーダは通常、モノ信号およびBBCビットストリームを受信する。モノ信号は周波数領域に変換され、空間合成ブロックへ入力される。空間合成ブロックは同様に、復号化ICLD値およびICTD値も受信する。空間合成ブロックでは、BCCパラメータ(ICLDおよびICTD)を用いてモノ信号を重み付けし、マルチチャネル信号を合成する。このマルチチャネル信号は、周波数/時間変換を経て、元のマルチチャネル音声信号の再生を表す。 On the decoder side, the decoder typically receives a mono signal and a BBC bitstream. The mono signal is converted to the frequency domain and input to the spatial synthesis block. The spatial synthesis block also receives the decoded ICLD value and ICTD value. In the spatial synthesis block, the mono signal is weighted using BCC parameters (ICLD and ICTD) to synthesize a multi-channel signal. This multi-channel signal undergoes frequency / time conversion and represents the reproduction of the original multi-channel audio signal.
BCCの場合、ジョイントステレオモジュール60は、パラメトリックチャネルデータが量子化および符号化ICLDまたはICTDパラメータになるようチャネル補助情報を出力するよう作用し、元のチャネルのうち1つがチャネル補助情報を符号化するための参照チャネルとして使用される。
In the case of BCC, the
通常、搬送波信号は、関与する元のチャネルの和からなる。 The carrier signal usually consists of the sum of the original channels involved.
上記の技術は当然、搬送波チャネルのみを処理できるデコーダのためのモノ表現を与えるに過ぎず、複数の入力チャネルに対し1つまたは複数の近似値を生成するためにパラメトリックデータを処理することはできない。 Of course, the above technique only provides a mono representation for a decoder that can only process carrier channels, and cannot process parametric data to generate one or more approximations for multiple input channels. .
このBBC技術については、米国特許公開US2003/0219130A1、US2003/0026441A1およびUS2003/0035553A1にも記載されている。また、ティー・ファーラーおよびエフ・バウムガルトの「バイノーラル・キュー符号化、パートII:構成および応用」、音声および音声処理に関するIEEE論文誌、第11巻、第6号、2003年11月("Binaural Cue Coding. Part II: Schemes and Applications", T. Faller and F. Baumgarte, IEEE Trans. On Audio and Speech Proc., Vol. 11, No. 6, November 2003)という専門家による出版物も引用する。
This BBC technology is also described in US Patent Publications US2003 / 0219130A1, US2003 / 0026441A1, and US2003 / 0035553A1. Also, T. Farrer and F. Baumgart, “Binaural Cue Coding, Part II: Construction and Applications”, IEEE Journal of Speech and Speech Processing,
次に、マルチチャネル音声符号化のための典型的なBCC方式について、図4〜図6を参照して詳細に述べる。 Next, a typical BCC scheme for multi-channel speech coding will be described in detail with reference to FIGS.
図5は、そのような、マルチチャネル音声信号を符号化/送信するためのBCC方式を示す。BCCエンコーダ112の入力110におけるマルチチャネル音声入力信号は、所謂ダウンミックスブロック114においてミックスダウンされる。この例では、入力110の元のマルチチャネル信号は、前方左チャネル、前方右チャネル、左サラウンドチャネル、右サラウンドチャネル、および中央チャネルを有する5チャネルのサラウンド信号である。本発明の好ましい実施例では、ダウンミックスブロック114が、これら5つのチャネルを単純に加算して1つのモノ信号にすることで、和信号を生成する。
FIG. 5 illustrates such a BCC scheme for encoding / transmitting a multi-channel audio signal. The multi-channel audio input signal at the
先行技術では、他のダウンミックス方法が知られており、マルチチャネル入力信号を用いて、単一のチャネルを有するダウンミックスチャネルが得られる。 In the prior art, other downmix methods are known and a multichannel input signal is used to obtain a downmix channel having a single channel.
この単一のチャネルは、和信号ライン115上に出力される。BCC分析ブロック116から得られた補助情報を補助情報ライン117上に出力する。
This single channel is output on the
上記のとおり、チャネル間レベル差(ICLD)およびチャネル間時間差(ICTD)をBCC分析ブロックで計算する。ここで、BCC分析ブロック116は、チャネル間相関値(ICC値)も計算することができる。和信号と補助情報とを量子化および符号化された形式で、BCCデコーダ120へ送信する。BCCデコーダは、送信された和信号をいくつかのサブバンドに分割し、スケーリングを行い、遅延を行い、かつ他の処理ステップを行って、出力するマルチチャネル音声チャネルのサブバンドを与える。この処理は、出力121における再生マルチチャネル信号のICLD、ICTDおよびICCパラメータ(キュー)が、BCCエンコーダ112の入力110における元のマルチチャネル信号に対応するキューと一致するように行われる。この目的で、BCCデコーダ120は、BCC合成ブロック122および補助情報処理ブロック123を備える。
As described above, the inter-channel level difference (ICLD) and the inter-channel time difference (ICTD) are calculated in the BCC analysis block. Here, the
次に、BCC合成ブロック122の内部設定について図6を参照して説明する。ライン115上の和信号が、時間/周波数変換ユニットまたはフィルタバンクFB125へ供給される。ブロック125の出力では、N個のサブバンド信号か、または極端な場合、音声フィルタバンク125が1:1の変換、すなわちN個の時間領域サンプルからN個のスペクトル係数を生成する変換を行った場合には、スペクトル係数のブロックが得られる。
Next, the internal setting of the
BCC合成ブロック122は、遅延ステージ126、レベル変更ステージ127、相関処理ステージ128および逆フィルタバンクステージIFB129をさらに備える。ステージ129の出力では、たとえば、5チャネルサラウンドシステムの場合、5つのチャネルを有する再生マルチチャネル音声信号が、図5または図4に示すようなラウドスピーカ124のセットへ出力されてもよい。
The
入力信号snを、素子125により、周波数領域またはフィルタバンク領域へ変換する。素子125により出力される信号を、コピーノード130により示すとおり、同信号のいくつかのバージョンが得られるようコピーする。元の信号のバージョンの数は、出力信号における出力チャネルの数に等しい。そして、ノード130の元の信号の各バージョンに、ある遅延dl、d2、...、di、...、dNを与える。遅延パラメータは、図5の補助情報処理ブロック123により計算され、図5のBCC分析ブロック116により計算されたチャネル間時間差から生成される。
The input signal sn is converted into the frequency domain or the filter bank domain by the
同じことが、乗算パラメータa1、a2、...ai、...、aNに当てはまり、これらもBCC分析ブロック116により計算されたチャネル間レベル差に基づき、補助情報処理ブロック123により計算される。
The same is true for the multiplication parameters a 1 , a 2 ,. . . a i,. . . , A N , which are also calculated by the auxiliary
BCC分析ブロック116により計算されるICCパラメータは、ブロック128の出力に、遅延され、かつ、レベルを操作された信号間に所定の相関が得られるように、ブロック128の機能性を制御するために使用される。なお、ステージ126、127および128の順序は、図6に示す順序と異なってもよい。
The ICC parameters calculated by the
また、音声信号のフレームによる処理において、BCC分析をフレーム的に、すなわち時間的可変的に行い、図6のフィルタバンク分割により明らかなように、周波数によるBCC分析をさらに得てもよい。これは、BCCパラメータがスペクトル帯ごとに得られることを意味する。また、これは、音声フィルタバンク126が入力信号をたとえば32のバンドパス信号に分ける場合、BCC分析ブロックが32のバンドの各々についてBCCパラメータのセットを取得することも意味する。図6でより詳細に示す、図5のBCC合成ブロック122も、例として上に述べた32のバンドに基づく再生を行う。
Further, in the processing based on the frame of the audio signal, the BCC analysis may be performed in a frame, that is, temporally variable, and the BCC analysis by the frequency may be further obtained as apparent from the filter bank division in FIG. This means that BCC parameters are obtained for each spectrum band. This also means that if the
次に、個々のBCCパラメータを決定するためのシナリオについて、図4を参照して説明する。通常、ICLD、ICTDおよびICCパラメータは、チャネル対の間で規定され得る。しかしながら、ICLDおよびICTDパラメータは、参照チャネルおよび他の各チャネルとの間で決定することが好ましい。これについては、図4Aに示す。 Next, a scenario for determining individual BCC parameters will be described with reference to FIG. In general, ICLD, ICTD and ICC parameters may be defined between channel pairs. However, the ICLD and ICTD parameters are preferably determined between the reference channel and each other channel. This is illustrated in FIG. 4A.
ICCパラメータは、異なる方法で規定してもよい。図4Bに示すとおり、一般に、ICCパラメータは、エンコーダにおいて可能な全てのチャネル対の間で決定され得る。しかしながら、図4Cに示すように、随時2つの最も強いチャネルの間でのみICCパラメータを計算するという提案がなされている。図4Cの例では、随時にチャネル1および2の間のICCパラメータが計算され、別の時に、チャネル1および5の間のICCパラメータが計算される。そして、デコーダは、デコーダにおける最強チャネルの間のチャネル間相関を合成し、残りのチャネル対については、ある種の発見的ルールを用いて、チャネル間コヒーレンスを計算かつ合成する。
ICC parameters may be defined in different ways. As shown in FIG. 4B, in general, ICC parameters may be determined between all possible channel pairs at the encoder. However, as shown in FIG. 4C, proposals have been made to calculate ICC parameters only between the two strongest channels at any given time. In the example of FIG. 4C, the ICC parameter between
たとえば、送信されたICLDパラメータに基づく乗算パラメータa1、aNの計算に関しては、AES大会論文、第5574を引用する。ICLDパラメータは、元のマルチチャネル信号のエネルギ分布を表す。普遍性を失わず、図4Aに示すように、それぞれのチャネルと前方左チャネルとの間のエネルギ差分を表す4つのICLDパラメータをとるのが好ましい。補助情報処理ブロック122においては、乗算パラメータa1、...、aNは、再生出力チャネル全ての合計エネルギーが同じである(または送信された和信号のエネルギに比例する)ように、ICLDパラメータから生成される。
For example, regarding the calculation of the multiplication parameters a 1 and a N based on the transmitted ICLD parameters, reference is made to AES Conference Paper No. 5574. The ICLD parameter represents the energy distribution of the original multichannel signal. Without loss of universality, it is preferable to take four ICLD parameters representing the energy difference between each channel and the front left channel, as shown in FIG. 4A. In the auxiliary
図5から明らかなように、一般に、1以上の基本チャネルおよび補助情報は、このような特定のパラメトリックマルチチャネル符号化方式において生成される。また、同様に図5から明らかなように、ブロックに基づく方式においては、通常、各ブロックのダウンミックス信号および/または和信号および/または1以上の基本チャネルが例えば1152のサンプルからなる1つのブロックを構成するように、入力110における元のマルチチャネル信号をブロックステージ111によりブロック処理する。同時に、各ブロックにおいて、対応するマルチチャネルパラメータをBCC分析により生成する。通常、和信号はダウンミックスチャネルを経て、MP3エンコーダやAACエンコーダなどのブロック処理エンコーダにより再び符号化され、さらにデータ量を減少させる。同様に、パラメータデータも差分符号化、スケーリング/量子化、エントロピ符号化等により符号化される。
As is apparent from FIG. 5, in general, one or more basic channels and auxiliary information are generated in such a particular parametric multi-channel coding scheme. Similarly, as is apparent from FIG. 5, in the block-based scheme, one block in which the downmix signal and / or the sum signal and / or one or more basic channels of each block is typically composed of 1152 samples, for example. The original multi-channel signal at the
そして、BCCエンコーダ112およびダウンストリーム基本チャネルエンコーダなどのエンコーダ全体の出力において、共通のデータストリームを導出する。このデータストリームでは、1以上の基本チャネルからなるブロックが、1以上の基本チャネルからなる先行のブロックに連続し、また、符号化されたマルチチャネル補助情報が例えばビットストリームマルチプレクサにより挿入される。
A common data stream is then derived at the output of the entire encoder, such as the
マルチチャネル補助情報を挿入する際には、基本チャネルデータおよびマルチチャネル補助情報を含むデータストリームが必ず基本チャネルデータからなるブロックおよびそれに対応するマルチチャネル補助データからなるブロックを含むようにする。これらのブロックは、例えば、送信フレームを構成する。その後、この送信フレームは送信経路を経てデコーダへ送信される。 When inserting the multi-channel auxiliary information, the data stream including the basic channel data and the multi-channel auxiliary information is sure to include a block made up of the basic channel data and a block made up of the corresponding multi-channel auxiliary data. These blocks constitute a transmission frame, for example. Thereafter, this transmission frame is transmitted to the decoder via the transmission path.
入力側では、デコーダはデータストリームからなるフレームを基本チャネルデータのブロックと、それに対応するマルチチャネル補助情報のブロックとに再び分離するデータストリームデマルチプレクサを含む。そして、基本データのブロックを例えばMP3デコーダやAACデコーダにより復号化する。復号化した基本データのブロックをマルチチャネル補助情報のブロックと共にBCCデコーダ102へ送信する。この時、マルチチャネル補助情報のブロックを復号化してもよい。 On the input side, the decoder includes a data stream demultiplexer that again separates the frame of data streams into a block of basic channel data and a corresponding block of multi-channel auxiliary information. Then, the basic data block is decoded by, for example, an MP3 decoder or an AAC decoder. The decoded basic data block is transmitted to the BCC decoder 102 together with the multi-channel auxiliary information block. At this time, the block of multi-channel auxiliary information may be decoded.
このようにして、補助情報と基本チャネルデータの時間的対応関係は基本チャネルデータおよび補助情報を共に送信することで自動的に決定され、フレーム方式のデコーダにより容易に再生できる。つまり、基本チャネルデータからなるブロックおよび関連する補助情報という2種類のデータを1つのデータストリームに含めて共に送信することにより、デコーダはその関連する補助情報を自動的に検出する。これにより、マルチチャネルを高品質に再生することが可能となる。したがって、マルチチャネル補助情報が基本チャネルデータに対しタイムオフセットを受けるという問題は起こらない。しかしながら、タイムオフセットが発生した場合、基本チャネルデータからなるブロックは自身ではなく、例えばその前後のブロックに対応するマルチチャネル補助情報と共に処理されるため、マルチチャネルの再生において大幅な品質劣化の原因となる。 In this way, the temporal correspondence between the auxiliary information and the basic channel data is automatically determined by transmitting both the basic channel data and the auxiliary information, and can be easily reproduced by a frame type decoder. That is, the decoder automatically detects the associated auxiliary information by transmitting two types of data including a block made up of basic channel data and related auxiliary information together in one data stream. Thereby, it is possible to reproduce the multi-channel with high quality. Therefore, the problem that the multi-channel auxiliary information receives a time offset with respect to the basic channel data does not occur. However, when time offset occurs, the block consisting of basic channel data is not itself, but is processed together with multi-channel auxiliary information corresponding to the preceding and following blocks, for example. Become.
このように、基本チャネルデータおよびマルチチャネル補助情報が1つの共通のデータストリームではなく、それぞれ別のデータストリームを構成した場合、マルチチャネル補助情報と基本チャネルデータが対応しなくなってしまう。そのような状況は、例えば、無線やインターネットのように逐次的に動作する送信システムにおいて発生する可能性がある。これらの環境では、送信される音声プログラムは音声基本データ(モノもしくはステレオのダウンミックス音声信号)と拡張データ(マルチチャネル補助情報)に分離され、別々に、もしくは結合して送信される。これら2つのデータストリームが送信装置により同時に送信されたとしても、受信装置までの通信経路において数多くの「予想外のこと」が発生する可能性があり、その結果、ビット数においてかなり軽量なマルチチャネル補助情報のデータストリームが、基本チャネルデータのデータストリームより早く受信装置に到達するというようなことが発生する。 As described above, when the basic channel data and the multi-channel auxiliary information are not one common data stream but are configured as different data streams, the multi-channel auxiliary information and the basic channel data are not associated with each other. Such a situation may occur in a transmission system that operates sequentially, such as wireless or the Internet. In these environments, the audio program to be transmitted is separated into basic audio data (mono or stereo downmix audio signal) and extended data (multi-channel auxiliary information) and transmitted separately or combined. Even if these two data streams are transmitted simultaneously by the transmitting device, a number of “unexpected things” can occur in the communication path to the receiving device, resulting in a multi-channel that is significantly lighter in number of bits. It may happen that the auxiliary information data stream reaches the receiving device earlier than the basic channel data data stream.
さらに、大幅に効率的なビット数を実現するためには、出力データ量が可変的なエンコーダ/デコーダを使うことが好ましい。ある基本チャネルデータのブロックを復号化するのに、どれくらいの時間がかかるか予測不可能である。さらに、この処理は、例えばパソコンやデジタル受信装置内の、実際に使用される復号化ハードウエアに依存する。さらに、システムおよび/またはアルゴリズムに由来するデータの歪みも発生する。なぜなら、特にビット格納技術においては、平均してある一定の出力データ量が得られるが、現実的な観点からすると、かなり符号化しやすいブロックにおいて使用されないビットは、ビット格納装置にキープされ、含まれる音声信号が大容量などの理由から符号化しにくい別のブロックに使われるからである。 Furthermore, in order to realize a significantly efficient number of bits, it is preferable to use an encoder / decoder having a variable output data amount. It is unpredictable how long it will take to decode a block of basic channel data. Furthermore, this process depends on the decoding hardware actually used, for example, in a personal computer or a digital receiver. In addition, distortion of data originating from the system and / or algorithm also occurs. This is because, in particular, in the bit storage technique, a certain amount of output data can be obtained on average, but from a practical viewpoint, bits that are not used in a block that is quite easy to encode are kept and included in the bit storage device. This is because the audio signal is used for another block that is difficult to encode due to a large capacity or the like.
一方で、上述した結合データストリームを2つの別々のデータストリームに分離する方法には、優れた利点がある。例えば、単純なモノあるいはステレオ受信装置などの古いタイプの受信装置は、マルチチャネル補助情報の内容やバージョンに関係なく、いつでも音声基本データを受信および再生できる。このように、個々のデータストリームに分離する方法は、この方法における下位互換性を保障する。 On the other hand, the method of separating the combined data stream described above into two separate data streams has excellent advantages. For example, older types of receivers, such as simple mono or stereo receivers, can receive and play basic audio data at any time, regardless of the content and version of the multi-channel auxiliary information. Thus, the method of separating into individual data streams ensures backward compatibility in this method.
対照的に、新世代の受信装置は、このようなマルチチャネル補助情報を分析し音声基本データと結合することによって、データ全体の拡がり、つまりマルチチャネルサウンドをユーザに提供していると言える。 In contrast, it can be said that the new generation of receiving devices analyze the multi-channel auxiliary information and combine it with the voice basic data, thereby expanding the entire data, that is, providing multi-channel sound to the user.
音声基本データと拡張データを分離して送信する方法としては、デジタル無線が特に興味深い。デジタル無線においては、更なる送信処理をほとんど加えることなく、これまでのステレオ音声信号を5.1などのマルチチャネル形式に拡張するためにマルチチャネル補助情報を利用することができる。この場合、プログラムプロバイダは、送信装置側で、音声/ビデオDVD等に含まれるようなマルチチャネル音源からマルチチャネル補助情報を生成する。そして、このマルチチャネル補助情報は従来どおりステレオ音声信号と平行して送信されるが、この時点で、ステレオ音声信号は単なるステレオ信号ではなく、ダウンミックスによりマルチチャネル信号から生成された2つの基本チャネルを含む。しかし、2つの基本チャネルからなるステレオ信号も、ユーザには従来のステレオ信号と同じように聞こえる。なぜなら、マルチチャネル分析においても、複数のトラックをミキシングして1つのステレオ信号を取り出すという従来行われている音源加工処理に似た処理が、最終的には行われるからである。 Digital radio is particularly interesting as a method for transmitting voice basic data and extended data separately. In digital radio, multi-channel auxiliary information can be used to extend a conventional stereo audio signal to a multi-channel format such as 5.1 with little additional transmission processing. In this case, the program provider generates multi-channel auxiliary information from the multi-channel sound source as included in the audio / video DVD or the like on the transmission device side. The multi-channel auxiliary information is transmitted in parallel with the stereo audio signal as usual, but at this point, the stereo audio signal is not a simple stereo signal, but two basic channels generated from the multi-channel signal by downmixing. including. However, a stereo signal composed of two basic channels sounds to the user in the same way as a conventional stereo signal. This is because, even in multi-channel analysis, a process similar to a sound source processing process that is conventionally performed, in which a single stereo signal is extracted by mixing a plurality of tracks, is finally performed.
分離処理のすばらしい利点は、既存のデジタル無線送信システムと互換性があるということである。補助情報を分析することのできない従来の受信装置でも、品質の制限を受けることなく、従来どおり2チャネルの音声信号を受信し再生することができる。一方、新しいタイプの受信装置では、マルチチャネル情報を既に受信したステレオ音声信号と併せて分析し、復号化し、それに基づいて元の5.1マルチチャネル信号を再生する。 The great advantage of the separation process is that it is compatible with existing digital radio transmission systems. Even a conventional receiving apparatus that cannot analyze auxiliary information can receive and reproduce a two-channel audio signal as usual without being limited in quality. On the other hand, a new type of receiving apparatus analyzes and decodes the multi-channel information together with the already received stereo audio signal, and reproduces the original 5.1 multi-channel signal based thereon.
デジタル無線システムにおいて、従来使われていたステレオ信号に変わるものとしてマルチチャネル補助情報を同時に送信するためには、上記で述べたようにマルチチャネル補助情報を符号化したダウンミックス音声信号と結合する方法が考えられる。つまり、必要があればスケーリングでき、かつ従来の受信装置でも読み出すことが可能な1つのデータストリームが考えられる。しかしながら、この時、従来の受信装置はマルチチャネル補助情報に関する補助データを検知しない。 In a digital radio system, in order to simultaneously transmit multi-channel auxiliary information as an alternative to a stereo signal used in the past, a method of combining multi-channel auxiliary information with a downmix audio signal encoded as described above Can be considered. That is, one data stream can be considered that can be scaled if necessary and can be read by a conventional receiving apparatus. However, at this time, the conventional receiving apparatus does not detect auxiliary data related to multi-channel auxiliary information.
また、受信装置は(有効な)音声データストリームのみ検知し、新しいタイプの受信装置の場合はさらにマルチチャネル音声補助情報を、対応するアップストリームデータ配信装置を介してデータストリームから抽出し、復号化し、5.1マルチチャネル音声として出力する。この時、マルチチャネル補助情報の抽出は、関連する音声データブロックに同期して行われる。 In addition, the receiving device detects only (valid) audio data streams, and in the case of a new type of receiving device, multi-channel audio auxiliary information is further extracted from the data stream via the corresponding upstream data distribution device and decoded. 5.1 Output as multi-channel audio. At this time, the extraction of the multi-channel auxiliary information is performed in synchronization with the related audio data block.
しかしながら、このアプローチの欠点は、従来のようにステレオ音声信号のみ送信するのではなく、ダウンミックス信号および拡張を結合したデータ信号を送信できるように、従来の構造および/または従来のデータ経路を改良する必要がある点である。そうすれば、標準の送信形式をステレオデータに適応した場合、無線送信においても、同期性は結合データストリームにより保障される。 However, the disadvantage of this approach is that it improves the conventional structure and / or the conventional data path so that it can transmit a data signal combined with a downmix signal and an extension rather than transmitting only a stereo audio signal as in the prior art. It is a point that needs to be done. Then, when the standard transmission format is applied to stereo data, the synchronization is ensured by the combined data stream even in wireless transmission.
しかしながら、従来の無線システムを変更しなければならない、つまりデコーダのみならず無線送信装置および標準化された送信プロトコルも改良しなければならないとすれば、市場の発展の面からかなり大きな問題である。従って、この方法は、一旦標準として実施されているシステムを変更しなければならないという点でかなりの不利益がある。 However, if the conventional wireless system has to be changed, that is, if not only the decoder but also the wireless transmission device and the standardized transmission protocol have to be improved, it is a considerable problem in terms of market development. Therefore, this method has a considerable disadvantage in that the system once implemented as a standard must be changed.
別の選択肢としては、マルチチャネル補助情報を従来の音声符号化システムに適用せず、実際の音声データストリームにも挿入しない方法がある。この場合、送信は異なるデジタル補助チャネルを介して行われるが、必ずしも同期する必要がない。そのような例としては、スタジオ内の従来の音声配信システムによって、例えばAES/EBUデータ形式によるPCMデータのような、非圧縮形式でダウンミックスデータを送信する場合が考えられる。そのようなシステムは音声信号を様々な発信元間でデジタル配信することを目的としており、通常、「クロスレール」として知られている機能ユニットが使われている。この方法に変えて、もしくは追加して、音声調節と動的圧縮を目的としてPCM形式で音声信号を処理する方法もある。いずれの方法においても、送信装置と受信装置の間の通信経路において、予測不能な遅延が発生する。 Another option is not to apply the multi-channel auxiliary information to the conventional speech coding system and not to insert it into the actual speech data stream. In this case, transmission takes place via a different digital auxiliary channel, but it does not necessarily have to be synchronized. As such an example, a case where downmix data is transmitted in an uncompressed format such as PCM data in an AES / EBU data format by a conventional audio distribution system in a studio can be considered. Such systems are intended to digitally distribute audio signals between various sources, and typically use functional units known as “cross rails”. There is a method of processing an audio signal in the PCM format for the purpose of audio adjustment and dynamic compression instead of or in addition to this method. In any method, an unpredictable delay occurs in the communication path between the transmission device and the reception device.
一方で、基本チャネルデータとマルチチャネル補助情報を分離して送信する方法は、既存のステレオシステムを変更する必要がないという点から特に興味深い。つまり、最初の対応策で述べた、標準に適合しないという不利益は発生しないということである。無線システムは補助チャネルのみを送信すればよく、既存のステレオチャネルシステムを変更する必要がない。受信装置のみ下位互換性を持つよう改良する努力をすればよく、ユーザは新しいタイプの受信装置で古いタイプの受信装置より高品質の音声を得られる。 On the other hand, the method of transmitting basic channel data and multi-channel auxiliary information separately is particularly interesting because it does not require modification of an existing stereo system. In other words, the disadvantage of not conforming to the standard described in the first countermeasure does not occur. The wireless system only needs to transmit the auxiliary channel and there is no need to change the existing stereo channel system. Efforts should be made to improve only the receiving device to be backward compatible, and the user can obtain higher quality speech with a new type of receiving device than with an old type of receiving device.
既に述べたとおり、時間シフトの幅は受信した音声信号および補助情報では決定できない。したがって、受信装置において、正しく同期するマルチチャネル信号を再生および対応付けできるかどうか保証がない。このような遅延の更なる例として、例えばデジタル無線の受信装置のような既存の2チャネル送信システムをマルチチャネル送信に改良する場合が考えられる。この場合、ダウンミックス信号を従来の受信装置内の2チャネル音声デコーダで復号化する際、遅延時間が予測できず補正できないということが良く起こる。極端なケースでは、ダウンミックス音声信号は、アナログ部分を持つ送信システムを介してマルチチャネル再生音声デコーダへ送信されることすらある。つまり、ある時点でデジタル/アナログ変換が行われ、その後記憶処理/送信処理を経て、再度アナログ/デジタル変換が行われる。無線通信では、このようなことが常に発生する。しかも、マルチチャネル補助情報に対するダウンミックス信号の遅延をいかに適切に補正するかを前もって予測することができない。また、A/D変換のサンプル周波数とD/A変換のサンプル周波数が互いに少しでも違えば、2つのサンプルレート同士の比率に応じて、必然的に遅延による時間のずれが発生する。 As already mentioned, the width of the time shift cannot be determined by the received audio signal and auxiliary information. Therefore, there is no guarantee that the receiving apparatus can reproduce and associate a correctly synchronized multi-channel signal. As a further example of such a delay, the case where an existing two-channel transmission system such as a digital radio receiver is improved to multi-channel transmission can be considered. In this case, when the downmix signal is decoded by the two-channel audio decoder in the conventional receiving apparatus, it often happens that the delay time cannot be predicted and cannot be corrected. In extreme cases, the downmix audio signal may even be transmitted to the multi-channel playback audio decoder via a transmission system having an analog portion. That is, digital / analog conversion is performed at a certain point, and then analog / digital conversion is performed again through storage processing / transmission processing. In wireless communication, this always occurs. Moreover, it is impossible to predict in advance how to properly correct the delay of the downmix signal with respect to the multi-channel auxiliary information. Further, if the sample frequency for A / D conversion and the sample frequency for D / A conversion are slightly different from each other, a time lag due to delay inevitably occurs according to the ratio between the two sample rates.
補助データを基本データに同期させるために使われる技術として、「時刻同期方法」として知られる様々な技術がある。これらの技術は、時間スタンプを両方のデータストリームに挿入し、その時間スタンプに基づいて、受信装置において正しくデータを対応させることを基本とする。しかしながら、時間スタンプを挿入するということは、従来のステレオシステムを変更することを意味する。 There are various techniques known as “time synchronization methods” as techniques used to synchronize auxiliary data with basic data. These techniques are based on inserting time stamps into both data streams and correctly matching data at the receiving device based on the time stamps. However, inserting a time stamp means changing a conventional stereo system.
本発明の目的は、基本チャネルデータおよびマルチチャネル補助情報の同期を可能にする、データストリームおよび/またはマルチチャネル表現の生成概念を提供することである。 It is an object of the present invention to provide a data stream and / or multi-channel representation generation concept that allows synchronization of basic channel data and multi-channel auxiliary information.
この目的は、請求項1に記載のデータストリーム生成装置、請求項17に記載のマルチチャネル表現生成装置、請求項26に記載のデータストリーム生成方法、請求項27に記載のマルチチャネル表現生成方法、請求項28に記載のコンピュータプログラム、または請求項29に記載のデータストリーム表現により達成される。
The object is to provide a data stream generating device according to
本発明は、マルチチャネルデータストリームを「送信側」で修正することにより、基本チャネルデータストリームおよびマルチチャネル補助情報データストリームを別々に送信し、時刻同期して結合することができるとする知見に基づく。この時、1以上の基本チャネルに時間経過を付与するフィンガープリント情報を、マルチチャネル補助情報を含むデータストリームに挿入する。それにより、マルチチャネル補助情報とフィンガープリント情報の対応関係をデータストリームから生成できる。したがって、導出されたマルチチャネル補助情報は導出された基本チャネルデータに対応する。データストリームを別々に送信する際にも保障しなければならないのは、まさにこの対応関係である。 The present invention is based on the finding that by modifying a multi-channel data stream on the “transmitting side”, the basic channel data stream and the multi-channel auxiliary information data stream can be transmitted separately and combined in time synchronization. . At this time, fingerprint information that gives time lapse to one or more basic channels is inserted into a data stream including multi-channel auxiliary information. Thereby, the correspondence between multi-channel auxiliary information and fingerprint information can be generated from the data stream. Accordingly, the derived multi-channel auxiliary information corresponds to the derived basic channel data. It is precisely this correspondence that must be ensured when transmitting data streams separately.
本発明によれば、マルチチャネル補助情報と基本チャネルデータの対応関係は、フィンガープリント情報を基本チャネルデータから決定することによって送信装置側で信号化される。この時、それぞれの基本チャネルデータに対応するマルチチャネル補助情報はマークされる。このマルチチャネル補助情報およびフィンガープリント情報の対応関係のマーキングおよび/または信号化は、ブロックに基づくデータ処理、つまり、それぞれの基本チャネルデータブロックに対応するマルチチャネル補助情報ブロック、そのマルチチャネル補助情報に対応する基本チャネルデータブロックのフィンガープリントを関連付けることで達成される。 According to the present invention, the correspondence between the multi-channel auxiliary information and the basic channel data is signaled on the transmission device side by determining the fingerprint information from the basic channel data. At this time, multi-channel auxiliary information corresponding to each basic channel data is marked. The marking and / or signaling of the correspondence between the multi-channel auxiliary information and the fingerprint information is performed on the basis of block-based data processing, that is, the multi-channel auxiliary information block corresponding to each basic channel data block and the multi-channel auxiliary information. This is accomplished by associating the corresponding basic channel data block fingerprints.
つまり、再生の際に、マルチチャネル補助情報と一緒に処理されるべき基本チャネルデータブロックのフィンガープリントがマルチチャネル補助情報と関連付けられる。ブロックに基づく送信処理では、各マルチチャネル補助情報ブロックが、対応する基本データのブロックフィンガープリントを含むように、マルチチャネル補助情報データストリームのブロック構造の中に基本チャネルデータブロックのブロックフィンガープリントを挿入してもよい。マルチチャネル再生の際に、ブロックフィンガープリントを同期化の目的で読み出すことができるように、ブロックフィンガープリントを先行のマルチチャネル補助情報の後に直接書き込んでも良いし、既に存在するブロックの前に書き込んでも良いし、ブロック内であればいつの時点で書き込んでも良い。データストリームには、適宜挿入されるブロックフィンガープリントと併せて、通常のマルチチャネル補助データも存在する。 That is, at the time of reproduction, the fingerprint of the basic channel data block to be processed together with the multi-channel auxiliary information is associated with the multi-channel auxiliary information. In the block-based transmission process, the block fingerprint of the basic channel data block is inserted into the block structure of the multi-channel auxiliary information data stream so that each multi-channel auxiliary information block includes a corresponding basic data block fingerprint. May be. In order to be able to read out the block fingerprint for synchronization purposes during multi-channel playback, the block fingerprint may be written directly after the preceding multi-channel auxiliary information, or may be written before an already existing block. You can write at any point in the block. In the data stream, there is also normal multi-channel auxiliary data together with a block fingerprint inserted as appropriate.
別な選択肢として、データストリームを、例えばブロックカウンターのような補助情報を与えられたブロックフィンガープリントの全てが、本発明によって生成されたデータストリームの最初に位置するような形式で生成してもよい。それにより、データストリームの第一の部分はブロックフィンガープリントのみを含み、第二の部分は、ブロック処理で書き込まれた、ブロックフィンガープリント情報に対応するマルチチャネル補助情報を含む。この方法には、参照情報が必要であるという欠点があるが、しかしながら、ブロック処理によって書き込まれたブロックフィンガープリントとマルチチャネル補助情報の対応関係はその順番から暗黙的であり、更なる情報は必要ない。 As another option, the data stream may be generated in such a way that all of the block fingerprints provided with auxiliary information such as a block counter are located at the beginning of the data stream generated by the present invention. . Thereby, the first part of the data stream contains only the block fingerprint, and the second part contains the multi-channel auxiliary information corresponding to the block fingerprint information written in the block processing. This method has the disadvantage of requiring reference information, however, the correspondence between block fingerprints written by block processing and multi-channel auxiliary information is implicit in that order, and more information is needed. Absent.
この場合、マルチチャネル再生において、同期化の目的で多数のブロックフィンガープリントを予め読み込み、参照フィンガープリント情報を生成してもよい。そして、相関処理に必要な最低限の数のテストフィンガープリントが得られるまで、テストフィンガープリントを段階的に生成する。その間に、マルチチャネル再生における相関処理が差分を用いて行われる場合は、参照フィンガープリントを例えば差分符号化により処理してもよい。この時、データストリームには差分ブロックフィンガープリントではなく、絶対ブロックフィンガープリントが含まれる。 In this case, in multi-channel playback, a number of block fingerprints may be read in advance for the purpose of synchronization to generate reference fingerprint information. Then, test fingerprints are generated step by step until the minimum number of test fingerprints necessary for the correlation processing is obtained. In the meantime, when the correlation processing in multi-channel reproduction is performed using a difference, the reference fingerprint may be processed by differential encoding, for example. At this time, the data stream includes an absolute block fingerprint, not a differential block fingerprint.
一般的に、基本チャネルデータを含むデータストリームは受信装置側で処理される。すなわち、基本チャネルデータを含むデータストリームはまず復号化され、それから例えばマルチチャネル再生装置へ送信される。好ましくは、このマルチチャネル再生装置は、補助情報を受信しなかった場合には、単にスルースイッチだけを行い、好ましくは2つの基本チャネルをステレオ信号として出力するように構成される。同様に、マルチチャネル補助データに対する基本チャネルデータのオフセットを計算するための相関処理を行うために、復号化した基本チャネルデータから参照フィンガープリント情報を抽出し、テストフィンガープリント情報を計算する。実施例によっては、さらに相関計測して、そのオフセットが本当に正しいかどうか検証してもよい。この場合、2回目の相関処理により得られたオフセットと、1回目の相関処理により得られたオフセットとの差は、所定の閾値以下である。 In general, a data stream including basic channel data is processed on the receiving device side. That is, a data stream including basic channel data is first decoded and then transmitted to, for example, a multi-channel playback device. Preferably, the multi-channel playback device is configured to simply perform a through switch and preferably output two basic channels as stereo signals when no auxiliary information is received. Similarly, in order to perform correlation processing for calculating an offset of basic channel data with respect to multi-channel auxiliary data, reference fingerprint information is extracted from the decoded basic channel data, and test fingerprint information is calculated. In some embodiments, further correlation measurements may be performed to verify that the offset is really correct. In this case, the difference between the offset obtained by the second correlation process and the offset obtained by the first correlation process is equal to or less than a predetermined threshold.
この場合、得られたオフセットは正しいと考えられる。したがって、同期されたマルチチャネル補助情報を受信した後、ステレオ出力からマルチチャネル出力へ変換される。 In this case, the obtained offset is considered correct. Therefore, after receiving the synchronized multi-channel auxiliary information, the stereo output is converted to the multi-channel output.
この処理は、ユーザに同期に要する時間に気づいて欲しくない場合に望ましい。この場合、基本チャネルデータは受信された瞬間に処理され、同期化が行われる際、つまりオフセットが計算される際に、当然ステレオデータのみが出力される。これは、その時点ではまだ同期されたマルチチャネル補助情報が検知されていないためである。 This process is desirable when the user does not want to be aware of the time required for synchronization. In this case, the basic channel data is processed at the moment it is received, and naturally only stereo data is output when synchronization is performed, that is, when the offset is calculated. This is because the synchronized multi-channel auxiliary information has not been detected yet.
オフセットの計算に必要な「最初の遅延」が問題とならない他の実施例では、基本チャネルデータの第1のブロックから順番に同期マルチチャネル補助情報を生成するのと平行して、ステレオデータを予め出力することなく同期処理全体を行い、再生処理してもよい。これにより、ユーザはブロックの最初から同期した5.1を体感できる。 In another embodiment where the “first delay” required for the offset calculation is not a problem, the stereo data is pre-processed in parallel with the generation of the synchronized multi-channel auxiliary information in order from the first block of the basic channel data. The entire synchronization processing may be performed without outputting and reproduction processing may be performed. Thereby, the user can experience 5.1 synchronized from the beginning of the block.
本発明の好ましい実施例では、理想的にオフセットを計算するために参照フィンガープリント情報としての参照フィンガープリントが約200必要なため、同期に要する時間は通常5秒である。例えば一方向の送信信号の場合のように、この約5秒の遅延が問題にならない場合、オフセット計算に要した時間が経過してからではあるが、5.1再生は最初から行われる。例えば会話等の対話型アプリケーションでは、この遅延は望ましくなく、その場合は同期処理が終了した後、随時ステレオ再生をマルチチャネル再生へと切り替える。同期されないマルチチャネル補助情報に基づいてマルチチャネル再生を行うより、ステレオ再生のみを行うほうが良いことが分かっている。 In the preferred embodiment of the present invention, approximately 200 reference fingerprints are required as reference fingerprint information in order to ideally calculate the offset, so the time required for synchronization is typically 5 seconds. For example, when the delay of about 5 seconds is not a problem as in the case of a unidirectional transmission signal, 5.1 reproduction is performed from the beginning although the time required for the offset calculation has elapsed. For example, in an interactive application such as conversation, this delay is not desirable. In this case, after the synchronization processing is completed, the stereo reproduction is switched to multi-channel reproduction at any time. It has been found that it is better to perform only stereo playback than to perform multi-channel playback based on unsynchronized multi-channel auxiliary information.
本発明によれば、基本チャネルデータとマルチチャネル補助情報を時間的に関連付ける際に発生する問題は、送信装置、受信装置双方を改良することによって解決できる。 According to the present invention, the problem that occurs when temporally associating basic channel data and multi-channel auxiliary information can be solved by improving both the transmitting device and the receiving device.
送信装置においては、時間可変的で適切なフィンガープリント情報を、対応するモノあるいはステレオのダウンミックス音声信号から計算する。好ましくは、このフィンガープリント情報は、送信されたマルチチャネル補助情報データストリームにおいて同期化補助として定期的に挿入される。この処理は、好ましくは、例えばブロック処理された空間音声符号化補助情報の中間におけるデータフィールドとして行われる。もしくは、フィンガープリント信号は、容易に追加したり削除できるようにデータブロックにおける最初あるいは最後の情報として送信される。 In the transmission device, time-varying and appropriate fingerprint information is calculated from the corresponding mono or stereo downmix audio signal. Preferably, this fingerprint information is periodically inserted as a synchronization aid in the transmitted multi-channel auxiliary information data stream. This process is preferably performed, for example, as a data field in the middle of the block-processed spatial audio coding auxiliary information. Alternatively, the fingerprint signal is transmitted as the first or last information in the data block so that it can be easily added or deleted.
受信装置側においては、時間可変的で適切なフィンガープリント情報を、対応するステレオ音声信号、すなわち基本チャネルデータから計算する。この基本チャネルデータは、本発明によれば、好ましくは2つの基本チャネルの複数対からなる。さらに、フィンガープリントをマルチチャネル補助情報から抽出する。その後、マルチチャネル補助情報および受信した音声信号との間のタイムオフセットを、例えばテストフィンガープリント情報および参照フィンガープリント情報の相互相関を計算するような相関処理方法により計算する。また、試行錯誤法により、様々なブロックラスタに基づいて基本チャネルデータから計算した様々な種類のフィンガープリント情報を参照フィンガープリント情報と比較し、対応するテストフィンガープリント情報が参照フィンガープリント情報と最も良く適合するブロックラスタに基づいてタイムオフセットを決定してもよい。 On the receiving device side, time-variable and appropriate fingerprint information is calculated from the corresponding stereo audio signal, that is, basic channel data. According to the invention, this basic channel data preferably consists of a plurality of pairs of two basic channels. Further, the fingerprint is extracted from the multi-channel auxiliary information. Thereafter, the time offset between the multi-channel auxiliary information and the received speech signal is calculated by a correlation processing method such as calculating the cross-correlation of the test fingerprint information and the reference fingerprint information. Also, by trial and error method, various types of fingerprint information calculated from basic channel data based on various block rasters are compared with reference fingerprint information, and the corresponding test fingerprint information is best compared with the reference fingerprint information. A time offset may be determined based on a matching block raster.
最後に、マルチチャネル補助情報を伴う基本チャネルからなる音声信号は、ダウンストリーム遅延補正ステージにより、後のマルチチャネル再生のために同期される。実施例によっては、最初の遅延のみ補正してもよい。しかしながら、好ましくは、オフセット計算は、オフセットを必要に応じて再調整できるように、再生と平行して行われる。また、最初の遅延を補正したにも関わらず、送信した基本チャネルデータおよびマルチチャネル補助情報の間に時間的ずれがある場合には、オフセットの計算は相関処理の結果に基づいて行われる。この遅延補正ステージは、能動的に制御してもよい。 Finally, the audio signal consisting of the basic channel with multi-channel auxiliary information is synchronized for later multi-channel playback by the downstream delay correction stage. In some embodiments, only the initial delay may be corrected. Preferably, however, the offset calculation is performed in parallel with playback so that the offset can be readjusted as needed. If there is a time lag between the transmitted basic channel data and the multi-channel auxiliary information even though the initial delay is corrected, the offset is calculated based on the correlation processing result. This delay correction stage may be actively controlled.
本発明は、基本チャネルデータおよび/または基本チャネルデータの処理経路において、一切変更を必要としない点で効果的である。受信装置に送信された基本チャネルデータストリームは、従来の基本チャネルデータストリームと一切変わらない。変更されるのはマルチチャネルデータストリームのみである。フィンガープリント情報が挿入されるという点が改良点であるが、現時点では、マルチチャネルデータストリームに関しては標準化された方式がないため、マルチチャネル補助データストリームに変更を加えても、基本チャネルデータストリームを改良した場合には発生すると思われる、既に標準として実施され確立された方式に反するという不利益は発生しない。 The present invention is effective in that no change is required in the basic channel data and / or the processing path of the basic channel data. The basic channel data stream transmitted to the receiving apparatus is not different from the conventional basic channel data stream. Only the multi-channel data stream is changed. The improvement is that fingerprint information is inserted, but at present there is no standardized method for multi-channel data streams, so even if changes are made to the multi-channel auxiliary data stream, the basic channel data stream is not changed. There will be no penalty for violating the already established and established standard that would occur if improved.
本発明の概念によれば、マルチチャネル補助情報をかなり柔軟に配信することができる。特に、マルチチャネル補助情報がかなり少ないデータ量または/および記憶容量しか必要としない軽量なパラメータ情報である場合、デジタル受信装置は、そのデータをステレオ信号と完全に分離して受信してもよい。例えば、ユーザはステレオ録音のためのマルチチャネル補助情報を、既に手持ちのソリッドステートプレーヤあるいは別の供給者のCDから獲得し、それらをユーザの再生装置に記録することもできる。このような記録処理においては、特にパラメトリックマルチチャネル補助情報の記録に必要な記録条件はそんなに大きくないため、問題は一切発生しない。ユーザがCDを挿入もしくはステレオ機器を選択すると、対応するマルチチャネル補助データストリームをマルチチャネル補助データメモリからフェッチし、マルチチャネル補助データストリームのフィンガープリント情報に基づいてステレオ信号と同期して、マルチチャネル再生を実施する。本発明による解決法によれば、全く異なる送信元から送信される場合もあり得るマルチチャネル補助データを、ステレオ信号の種類に関わらずステレオ信号と同期できる。すなわち、ステレオ信号はデジタル無線受信装置から受信しようとも、CDから受信しようとも、DVDから受信しようとも構わない。また、例えばインターネットを介して受信しようとも構わず、この場合、ステレオ信号は基本チャネルデータとなり、マルチチャネル再生はそれに基づいて行われる。 According to the inventive concept, multi-channel auxiliary information can be distributed with considerable flexibility. In particular, if the multi-channel auxiliary information is light-weight parameter information that requires a relatively small amount of data or / and storage capacity, the digital receiver may receive the data completely separated from the stereo signal. For example, a user can obtain multi-channel auxiliary information for stereo recording from an existing solid state player or another supplier's CD and record it on the user's playback device. In such a recording process, the recording conditions necessary for recording the parametric multi-channel auxiliary information are not so large, and no problem occurs. When the user inserts a CD or selects a stereo device, the corresponding multi-channel auxiliary data stream is fetched from the multi-channel auxiliary data memory and synchronized with the stereo signal based on the fingerprint information of the multi-channel auxiliary data stream. Perform playback. According to the solution according to the invention, multi-channel auxiliary data, which may be transmitted from completely different sources, can be synchronized with the stereo signal regardless of the type of stereo signal. That is, the stereo signal may be received from the digital wireless receiver, received from the CD, or received from the DVD. Also, for example, it may be received via the Internet. In this case, the stereo signal becomes basic channel data, and multi-channel reproduction is performed based on the data.
発明の好ましい実施例について、添付の図面を参照しながら詳細に説明する。 Preferred embodiments of the invention will be described in detail with reference to the accompanying drawings.
図1は、元のマルチチャネル信号をマルチチャネル再生するためのデータストリームを生成する装置を示す。この場合、本発明の好ましい実施例によれば、マルチチャネル信号は少なくとも2つのチャネルからなる。データストリーム生成装置はフィンガープリント生成装置2を含み、元のマルチチャネル信号から生成された1以上の基本チャネルを入力ライン3を通じて、フィンガープリント生成装置2に送信してもよい。基本チャネルの数は、1以上且つ元のマルチチャネル信号のチャネル数より少ない。元のマルチチャネル信号が、2つのチャネルからなる1つのステレオ信号であれば、2つのステレオチャネルからなる1つの基本チャネルのみ生成されることになる。しかしながら、元のマルチチャネル信号が3つ以上のチャネルからなる信号であれば、基本チャネルの数は2となる。従来のステレオ再生と同様に、マルチチャネル補助データなしで音声を再生できるため、このような実施形態が好ましい。本発明の好ましい実施例では、元のマルチチャネル信号は5つのチャネルと、1つのLFE(Low Frequency Enhancement=低音増強)チャネルからなるサラウンド信号である。LFEチャネルはサブウーファともよばれる。5つのチャネルは、左サラウンドチャネルLs、左チャネルL、中央チャネルC、右チャネルR、後方右および/または右サラウンドチャネルRsからなる。2つの基本チャネルは左基本チャネルおよび右基本チャネルからなる。当業者は、1つおよび/または複数の基本チャネルをダウンミックスチャネルと呼ぶこともある。
FIG. 1 shows an apparatus for generating a data stream for multi-channel reproduction of an original multi-channel signal. In this case, according to a preferred embodiment of the invention, the multi-channel signal consists of at least two channels. The data stream generation device may include a
フィンガープリント生成装置2は1以上の基本チャネルからフィンガープリント情報を生成するための装置である。フィンガープリント情報は1以上の基本チャネルに時間経過を付与する。実施例によって、フィンガープリント情報の計算に要する作業量は変わる。例えば、「音声ID」で知られる統計的方法に基づいてフィンガープリントを計算する際には、大きな作業量を要する。しかしながら、これ以外のどんな数値で1以上の基本チャネルに時間経過を与えても構わない。
The
本発明によれば、ブロックに基づく処理が望ましい。この場合、フィンガープリント情報は一連のブロックフィンガープリントからなり、各ブロックフィンガープリントは各ブロック内の1つおよび/または複数のチャネルのエネルギを示す値となる。別の方法としては、例えば所定のサンプルブロック1個もしくは複数のサンプルブロックの組合せをブロックフィンガープリントとして利用することもできる。この場合、フィンガープリント情報であるフィンガープリントブロックの数が十分に多ければ、粗いものであったとしても、1以上の基本チャネルの時間特性を再生できるからである。一般的に、フィンガープリント情報は1以上の基本チャネルのサンプルデータから生成され、多少のエラーを伴って1以上の基本チャネルに時間経過を付与する。これにより、後で述べるように、マルチチャネル補助情報のデータストリームおよび基本チャネルの間のオフセットを最終決定するために、デコーダ/受信装置側で基本チャネルからテストフィンガープリント情報との相関を計算できる。 According to the present invention, block-based processing is desirable. In this case, the fingerprint information consists of a series of block fingerprints, each block fingerprint being a value indicating the energy of one and / or multiple channels within each block. As another method, for example, a predetermined sample block or a combination of a plurality of sample blocks can be used as a block fingerprint. In this case, if the number of fingerprint blocks, which are fingerprint information, is sufficiently large, the time characteristics of one or more basic channels can be reproduced even if they are coarse. In general, fingerprint information is generated from sample data of one or more basic channels, and gives a time lapse to one or more basic channels with some errors. This allows the decoder / receiver side to calculate the correlation with the test fingerprint information from the basic channel in order to finally determine the offset between the multi-channel auxiliary information data stream and the basic channel, as will be described later.
出力側では、フィンガープリント生成装置2はデータストリーム生成装置4に送信するフィンガープリント情報を生成する。データストリーム生成装置4はフィンガープリント情報からデータストリームと、通常、時間可変的なマルチチャネル補助情報を生成する。マルチチャネル補助情報と1以上の基本チャネルを組合わせることにより元のマルチチャネル信号をマルチチャネル再生できる。データストリーム生成装置は出力5においてデータストリームを生成し、マルチチャネル補助情報とフィンガープリント情報の対応関係をデータストリームから生成する。本発明によれば、1以上の基本チャネルから生成されたフィンガープリント情報によりマルチチャネル補助情報のデータストリームをマーキングし、マルチチャネル補助情報と基本チャネルデータの対応関係をフィンガープリント情報により決定する。この時、フィンガープリント情報とマルチチャネル補助情報とはデータストリーム生成装置4において対応付けられる。
On the output side, the
図2は、本発明による、1以上の基本チャネルとデータストリームから元のマルチチャネル信号のマルチチャネル表現を生成する装置を示す。この時、データストリームは1以上の基本チャネルに時間経過を付与するフィンガープリント情報およびマルチチャネル補助情報を含み、1以上の基本チャネルと組合わせることにより、元のマルチチャネル信号をマルチチャネル再生できる。マルチチャネル補助情報およびフィンガープリント情報の対応関係はデータストリームから生成してもよい。受信装置および/またはデコーダにおいて、1以上の基本チャネルは入力10を介してフィンガープリント生成装置11に送信される。出力側では、フィンガープリント生成装置11は出力12を介してテストフィンガープリント情報を同期装置13に送信する。好ましくは、図1に示すブロック2で実行されるものと全く同じアルゴリズムにより、1以上の基本チャネルからテストフィンガープリント情報を生成する。しかしながら、実施例によっては、このアルゴリズムは全く同一でなくてもよい。
FIG. 2 shows an apparatus for generating a multi-channel representation of an original multi-channel signal from one or more basic channels and a data stream according to the present invention. At this time, the data stream includes fingerprint information and multi-channel auxiliary information that gives time lapse to one or more basic channels, and by combining with one or more basic channels, the original multi-channel signal can be reproduced in multi-channel. The correspondence between the multi-channel auxiliary information and the fingerprint information may be generated from the data stream. In the receiving device and / or the decoder, one or more basic channels are transmitted to the
例えば、フィンガープリント生成装置2は絶対符号化によりブロックフィンガープリントを生成し、デコーダのフィンガープリント生成装置11は差分に基づきフィンガープリントを決定してもよい。この時、ブロックに対応するテストブロックフィンガープリントは2つの絶対フィンガープリントの差分となる。この場合、すなわち、絶対ブロックフィンガープリントがフィンガープリント情報を含むデータストリームによって送信される場合、フィンガープリント抽出装置14はデータストリームからフィンガープリント情報を抽出し、同時に差分を形成し、そのデータを参照フィンガープリント情報として出力15を介して同期装置13に送信する。このデータはテストフィンガープリント情報に相当する。
For example, the
一般的に、デコーダにおけるテストフィンガープリント情報の計算アルゴリズムと、エンコーダにおけるフィンガープリント情報の計算アルゴリズムは少なくとも、同期装置13において、これら2種類のフィンガープリント情報を使って、入力16を介して受信するデータストリームに含まれるマルチチャネル補助データと1以上の基本チャネルに含まれるデータを同期できる程度には、類似していることが望ましい。この時、エンコーダにおけるフィンガープリント情報は、図2に示すように、参照フィンガープリント情報とも呼ばれる。同期装置の出力におけるマルチチャネル表現として、基本チャネルデータおよび同期するマルチチャネル補助データを含む、同期マルチチャネル表現が生成される。
Generally, the test fingerprint information calculation algorithm in the decoder and the fingerprint information calculation algorithm in the encoder are at least data received at the
この観点から、好ましくは、同期装置13は基本チャネルデータおよびマルチチャネル補助データ間のタイムオフセットを決定し、決定したタイムオフセットに基づいてマルチチャネル補助データを遅延させる。通常、マルチチャネル補助データの方が到達するのが早い、すなわち早すぎることが明らかになっている。これは、通常、基本チャネルデータのデータ量に比べてマルチチャネル補助情報に対応するデータ量がかなり少ないことに起因するであろう。したがって、マルチチャネル補助データが遅延すれば、1以上の基本チャネルに含まれるデータは基本チャネルデータライン17を介して入力10から同期装置13へ送信され、文字通り同期装置13をただ「通過」し、出力18から再び出力される。入力16から受信したマルチチャネル補助データはマルチチャネル補助データライン19を介して同期装置へ送信され、そこで、決定されたタイムオフセットに基づき遅延され、基本チャネルデータと共に同期装置の出力20からマルチチャネル再生装置21に送信される。再生装置は、例えば5つの音声チャネルおよび1つのウーファチャネル(図2には示さない)を生成するために、出力側で音声再生処理を行う。
From this point of view, the
ライン18および20におけるデータは同期したマルチチャネル表現を構成し、ライン20上のデータストリームは、フィンガープリント情報がデータストリームから分離されている点を除き、恐らく行われるマルチチャネル補助データの符号化から離れて、入力16におけるデータストリームに対応している。実施例によっては、フィンガープリント情報をデータストリームから分離する処理は、同期装置13、もしくはそれ以前の段階で行われる。もしくは、フィンガープリントを分離する処理は、予めフィンガープリント抽出装置14で行ってもよい。この場合、ライン19は存在せず、ライン19’が直接フィンガープリント抽出装置9から同期装置13に接続される。この場合、マルチチャネル補助データおよび参照フィンガープリント情報の両方が、フィンガープリント抽出装置により同期装置13へ並列に送信される。
The data on
同期装置は、テストフィンガープリント情報および参照フィンガープリント情報に基づいて、また、マルチチャネル情報およびデータストリームから生成され、かつ、データストリームに含まれるフィンガープリント情報との相関に基づいて、マルチチャネル補助情報および1以上の基本チャネルを同期する。後で述べるように、好ましくは、マルチチャネル補助情報とフィンガープリント情報の時間的対応関係は、単純にフィンガープリント情報が、マルチチャネル補助情報の前に位置するか、後ろに位置するか、もしくは、中に位置するかによって決定される。フィンガープリントがマルチチャネル補助情報の前に位置するか、後ろに位置するか、中に位置するかによって、そのマルチチャネル補助情報が間違いなくそのフィンガープリント情報に対応するものかどうか、エンコーダで決定される。 The synchronizer includes multi-channel auxiliary information based on the test fingerprint information and the reference fingerprint information, and based on the correlation with the fingerprint information generated from the multi-channel information and the data stream and included in the data stream. And one or more basic channels are synchronized. As will be described later, preferably, the temporal correspondence between the multi-channel auxiliary information and the fingerprint information is simply that the fingerprint information is located before or after the multi-channel auxiliary information, or It is determined by whether it is located inside. Depending on whether the fingerprint is positioned before, behind, or in the multi-channel auxiliary information, the encoder determines whether the multi-channel auxiliary information definitely corresponds to the fingerprint information. The
好ましくは、ブロックに基づく処理が行われる。好ましくは、フィンガープリントを挿入する際に、マルチチャネル補助データのブロックは必ずブロックフィンガープリントの後に続く。すなわち、マルチチャネル補助情報は、ブロックフィンガープリントと交互になっている。しかし、またこれとは別に、全てのフィンガープリント情報がデータストリームの最初の分離した部分に書かれ、その後にデータストリーム全体が続くようなデータストリームの形式が使われてもよい。この場合は、ブロックフィンガープリントと、マルチチャネル補助情報のブロックは交互にならない。フィンガープリントとマルチチャネル補助情報を関連付ける他の方法は、当業者には公知である。本発明によれば、マルチチャネル補助情報とフィンガープリント情報の関連付けは、フィンガープリント情報を使ってマルチチャネル補助情報および基本チャネルデータを同期できるように、デコーダにおいてデータストリームに基づいて行われればよい。 Preferably, block-based processing is performed. Preferably, when inserting a fingerprint, the block of multi-channel auxiliary data always follows the block fingerprint. That is, the multi-channel auxiliary information is alternated with the block fingerprint. However, alternatively, a data stream format may be used in which all fingerprint information is written in the first separate part of the data stream, followed by the entire data stream. In this case, the block fingerprint and the block of multi-channel auxiliary information are not alternated. Other methods for associating fingerprints with multi-channel auxiliary information are known to those skilled in the art. According to the present invention, the association between the multi-channel auxiliary information and the fingerprint information may be performed based on the data stream in the decoder so that the multi-channel auxiliary information and the basic channel data can be synchronized using the fingerprint information.
次に、図7a〜図7dを参照して、ブロック処理の好ましい実施例について述べる。図7aは、一連のブロックB1〜B8からなる、例えば5.1信号等の元のマルチチャネル信号を示し、図7aの例によれば各ブロックはマルチチャネル情報MKiを含む。5チャネル信号の場合を考えると、ブロックB1など各ブロックはそれぞれのチャネルに対応する、例えば1152個の第一の音声サンプルを含む。このブロックサイズは、例えば、図5に示すBCCエンコーダ112において好ましい。この場合、連続する信号から一連のブロックを生成するためのブロック生成処理、すなわち切出し処理は、図5において「ブロック」として示す構成要素111によって実行される。
A preferred embodiment of the block processing will now be described with reference to FIGS. 7a-7d. FIG. 7a shows an original multi-channel signal, such as a 5.1 signal, consisting of a series of blocks B1-B8, and according to the example of FIG. 7a, each block contains multi-channel information MKi. Considering the case of a 5-channel signal, each block, such as block B1, includes, for example, 1152 first audio samples corresponding to the respective channel. This block size is preferable, for example, in the
1以上の基本チャネルを、図5において参照符号115で示す「和信号」としてダウンミックスブロック114で出力する。基本チャネルデータは、再び、一連のブロックB1〜B8として示す。ここで、図7bに示すブロックB1〜B8は図7aに示すブロックB1〜B8に対応する。しかし、時間領域表現に基づけば、この時点ではブロックは元の5.1信号は含まず、モノ信号もしくは2つのステレオ基本チャネルからなるステレオ信号のみ含む。従って、ブロックB1は、第1のステレオ基本チャネルおよび第2のステレオ基本チャネルの両方の、1152個の時間サンプルを含む。この左右両方のステレオ基本チャネルの1152個のサンプルは、サンプル加減および重み付けにより計算され、該当する場合には、例えば図5に示すダウンミックスブロック114における実施例により計算される。同様に、マルチチャネル情報を含むデータストリームはブロックB1〜B8を含む。図7cに示す各ブロックは図7aに示す元のマルチチャネル信号のブロックおよび/または図7bに示す1つまたは複数の基本チャネルのブロックに対応する。例えば、元のマルチチャネル信号MK1のブロックB1を再生するためには、基本チャネルデータストリームのブロックB1に含まれる基本チャネルデータBK1を、図7cに示すブロックB1に含まれるマルチチャネル情報P1と結合させなければならない。図6に示す実施例においては、この結合処理はBCC合成ブロックにおいて行われる。この場合、基本チャネルデータをブロック処理するために、入力においてブロック生成ステージを含む。
One or more basic channels are output by the downmix block 114 as a “sum signal” denoted by
したがって、図7cに示すようにP3はマルチチャネル情報を表し、マルチチャネル情報と、基本チャネルに含まれるBK3のブロックとを組み合わせることにより、元のマルチチャネル信号に含まれるブロック値MK3を再生することができる。 Accordingly, as shown in FIG. 7c, P3 represents multi-channel information, and the block value MK3 included in the original multi-channel signal is reproduced by combining the multi-channel information and the block of BK3 included in the basic channel. Can do.
本発明によれば、図7cに示すデータストリームの各ブロックBiはブロックフィンガープリントを含む。すなわち、好ましくは、ブロックB3においてブロックフィンガープリントF3はマルチチャネル情報のブロックP3の後ろに書かれている。このブロックフィンガープリントは、この時点で、ブロック値BK3を含むブロックB3から生成される。もしくは、ブロックフィンガープリントF3は差分符号化により処理してもよい。この時、フィンガープリントF3は、基本チャネルにおけるブロックBK3のブロックフィンガープリントと、基本チャネルにおけるブロック値BK2を含むブロックのブロックフィンガープリントとの差分である。本発明の好ましい実施例においては、エネルギ値および/または差分エネルギ値をブロックフィンガープリントとして利用する。 According to the present invention, each block Bi of the data stream shown in FIG. 7c includes a block fingerprint. That is, preferably, in block B3, the block fingerprint F3 is written after the block P3 of multi-channel information. This block fingerprint is now generated from block B3 containing block value BK3. Alternatively, the block fingerprint F3 may be processed by differential encoding. At this time, the fingerprint F3 is a difference between the block fingerprint of the block BK3 in the basic channel and the block fingerprint of the block including the block value BK2 in the basic channel. In the preferred embodiment of the present invention, energy values and / or differential energy values are utilized as block fingerprints.
初めに述べた方式では、図7bに示す1以上の基本チャネルを含むデータストリームを、図7cに示すマルチチャネル情報およびフィンガープリント情報を含むデータストリームから分離してマルチチャネル再生装置へ送信する。他の処理を何も行わなければ、例えば図5に示すBCC合成ブロック122のようなマルチチャネル再生装置において、次に処理されるべきブロックがBK5という場合が考えられる。しかしながら、マルチチャネル情報における時間のずれから、ブロックB5の変わりにブロックB7が次に処理される、ということが起こり得る。そのままいくと、基本チャネルデータのブロックBK5はマルチチャネル情報P7と共に再生され、アーチファクトとなる。本発明によれば、後で詳細に述べるように、2つのブロック間のオフセットを計算して図7cに示すデータストリームを2ブロック分遅延し、互いに同期した図7bに示すデータストリームと図7cに示すデータストリームからマルチチャネル表現を再生する。
In the scheme described at the beginning, the data stream including one or more basic channels illustrated in FIG. 7b is separated from the data stream including multi-channel information and fingerprint information illustrated in FIG. 7c and transmitted to the multi-channel playback device. If no other processing is performed, for example, in a multi-channel playback device such as the
実施例により、またフィンガープリント情報の構成/正確性により、本発明おけるオフセットの決定は、ブロックの倍数(整数)として計算することに限らず、ブロックの分数として正確なオフセットを決定してもよい。もしくは、計算された相関が十分に正確で、十分な数のブロックフィンガープリントがあれば、あるサンプルを導出してもよい。(当然、相関を計算するための時間を要する。)しかしながら、そんなに高い正確性は必ずしも必要としないことが明らかになっており、プラスマイナスブロック半分の誤差の同期精度(1152個のサンプルからなるブロック長)があれば、ユーザが欠陥データを感じないと思われる程度のマルチチャネル再生が達成される。 According to the embodiment and due to the configuration / accuracy of the fingerprint information, the determination of the offset in the present invention is not limited to calculation as a multiple (integer) of the block, and an accurate offset may be determined as a fraction of the block. . Alternatively, a sample may be derived if the calculated correlation is sufficiently accurate and there are a sufficient number of block fingerprints. (Of course, it takes time to calculate the correlation.) However, it has become clear that such high accuracy is not necessarily required, and the synchronization accuracy of the error of half of plus and minus blocks (block consisting of 1152 samples) Long channel), multi-channel playback is achieved to the extent that the user does not feel defective data.
図7dはブロックBi、例えば図7cに示すデータストリームに含まれるブロックB3の好ましい実施例を示す。このブロックは、例えば1バイトの長さをもつ同期語で始まり、次には長さ情報が来る。なぜなら、当業者には明らかなように、このブロックは好ましくは計算処理の後、マルチチャネル情報P3をスケーリングし、量子化し、エントロピ符号化するためである。例えばパラメータ情報やサイドチャネルの波形信号などのマルチチャネル情報の長さを最初から知ることはできず、そのため、データストリームの中で信号化しなければならない。 FIG. 7d shows a preferred embodiment of block Bi, for example block B3 included in the data stream shown in FIG. 7c. This block begins with a sync word having a length of, for example, 1 byte, and then comes length information. This is because, as will be apparent to those skilled in the art, this block preferably scales, quantizes and entropy codes the multi-channel information P3 after computational processing. For example, the length of multi-channel information such as parameter information and side channel waveform signals cannot be known from the beginning, and therefore must be signaled in the data stream.
そこで、本発明においては、ブロックフィンガープリントをマルチチャネル情報P3の最後部に挿入する。図7dに示す実施例において、1バイト、つまり8ビットがブロックフィンガープリントに使われる。1ブロックあたり1つのエネルギ尺度のみ使われるため、量子化のみ行われて、エントロピ符号化は行われない実施例においては、8ビットの量子化出力長による量子化では、量子化装置が使われる。したがって、量子化エネルギ値が図7dに示す8ビットのフィールド、「ブロックFA」に、更なる処理を経ずに入力される。図7dには示さないが同様に、次のデータストリームブロックのための同期化バイト、長さのバイト、そしてさらにBK4に対応するマルチチャネル情報P4と続く。この場合、基本チャネルデータブロックBK4に対応するマルチチャネル情報P4のブロックの後には、同様に、基本チャネルデータBK4に基づくブロックフィンガープリントが続く。 Therefore, in the present invention, the block fingerprint is inserted at the end of the multichannel information P3. In the embodiment shown in FIG. 7d, 1 byte, or 8 bits, is used for the block fingerprint. Since only one energy measure is used per block, only quantization is performed, and entropy coding is not performed. In the quantization using the 8-bit quantization output length, a quantizer is used. Therefore, the quantized energy value is input to the 8-bit field “Block FA” shown in FIG. 7d without further processing. Although not shown in FIG. 7d, it is similarly followed by a synchronization byte for the next data stream block, a length byte, and further multi-channel information P4 corresponding to BK4. In this case, similarly to the block of the multi-channel information P4 corresponding to the basic channel data block BK4, a block fingerprint based on the basic channel data BK4 follows.
図7dに示すように、絶対エネルギ尺度もしくは差分エネルギ尺度をエネルギ尺度として採用してもよい。この場合、基本チャネルデータBK3のエネルギ尺度と基本チャネルデータBK2の差分がデータストリームのブロックB3にブロックフィンガープリントエネルギ値として追加される。 As shown in FIG. 7d, an absolute energy scale or a differential energy scale may be employed as the energy scale. In this case, the difference between the energy measure of the basic channel data BK3 and the basic channel data BK2 is added to the block B3 of the data stream as a block fingerprint energy value.
図8は、図2に示す同期装置、フィンガープリント生成装置11、およびフィンガープリント抽出装置9をマルチチャネル再生装置21と共に更に詳細に示す。基本チャネルデータを基本チャネルデータバッファ25へ送信し、中間でバッファリングする。同様に、補助情報および/または、補助情報およびフィンガープリント情報を含むデータストリームを補助情報バッファ26に送信する。通常、両方のバッファはFIFOバッファの構造になっているが、バッファ26は更にフィンガープリント情報を参照フィンガープリント抽出装置9により抽出し、さらにデータストリームから分離できる容量を備える。これにより、挿入されたフィンガープリントを含まずに、マルチチャネル補助情報のみをバッファ出力ライン27を介して出力する。フィンガープリントをデータストリームから分離する処理は、タイムシフタ28やその他の構成要素により行われてもよく、その場合、マルチチャネル再生時に、マルチチャネル再生装置21はフィンガープリントバイトの影響を受けない。絶対フィンガープリントが参照用およびテスト用両方に使われた場合、フィンガープリント生成装置11により計算されたフィンガープリント情報は、フィンガープリント抽出装置9により決定されたフィンガープリント情報同様に、図2に示す同期装置13内の相関器29に直接送信されてもよい。そして、相関器はオフセット値を計算し、その計算したオフセット値をオフセットライン30を介してタイムシフタ28へ送信する。有効なオフセット値が生成され、タイムシフタ28へ送信されると、同期装置13は更に、実行装置31を制御する。これにより、実行装置31はスイッチ32を閉鎖し、バッファ26からのマルチチャネル補助データのストリームは、タイムシフタ28およびスイッチ32を介してマルチチャネル再生装置21へ送信される。
FIG. 8 shows the synchronization device,
本発明の好ましい実施例では、マルチチャネル補助情報のタイムシフト(遅延)のみ行われる。同時に、正確なオフセット値の計算と平行してマルチチャネル再生も行われるため、ユーザはマルチチャネル再生装置21の出力において、オフセット値を正確に計算するために発生する時間の遅延に気づかない。しかしながら、このようなマルチチャネル再生は、「簡単な」マルチチャネル再生に過ぎない。なぜなら、好ましくは、単に2つのステレオ基本チャネルがマルチチャネル再生装置21から出力されるだけだからである。したがって、スイッチ32が開放されている場合、ステレオ出力のみ行われる。しかし、スイッチ32が閉鎖されている場合、マルチチャネル再生装置21は、ステレオ基本チャネルと併せてマルチチャネル補助情報も受信し、マルチチャネル出力を行う。しかしながら、この時、このマルチチャネル出力は既に同期されている。ユーザは、ステレオ品質がマルチチャネル品質に変換されていることにしか気づかない。
In the preferred embodiment of the present invention, only time shifting (delaying) of multi-channel auxiliary information is performed. At the same time, multi-channel playback is also performed in parallel with accurate offset value calculation, so that the user is unaware of the time delay that occurs at the output of the
しかしながら、時間の最初の遅延が主な問題ではないケースの場合、マルチチャネル再生装置21における出力は、有効なオフセットが得られるまで保留してもよい。一番最初のブロック(図7bに示すBK1)を、正確に遅延させたマルチチャネル補助データP1(図7c)と共にマルチチャネル再生装置21へ送信してもよい。この場合、マルチチャネルデータが得られた時のみ、出力が開始されることになる。この実施例では、スイッチが開放している時にはマルチチャネル再生装置21での出力は行われない。
However, in cases where the initial delay in time is not the main problem, the output at the
次に、図9を参照して、図8に示す相関器29の機能について説明する。図9の最上部の図に示すように、テストフィンガープリント計算装置11の出力において、一連のテストフィンガープリント情報が送信される。従って、1、2、3、4、iの参照符号で示す基本チャネルの各ブロックに対して、ブロックフィンガープリントが得られる。相関アルゴリズムによっては、一連の離散値のみ相関に必要とする場合もある。しかしながら、図9に示すように、他の相関アルゴリズムでは離散値の間を補間する曲線を入力値として求めてもよい。同様に、参照フィンガープリント決定装置9は、一連の離散参照フィンガープリントをデータストリームから抽出し生成する。例えば、データストリームが差分符号化処理されたフィンガープリント情報を含み、相関器が絶対フィンガープリントに基づいて動作する場合、図8に示す差分デコーダ35が作動する。しかしながら、好ましくは、データストリームはエネルギ尺度としての絶対フィンガープリントを含む。なぜなら、このようなブロックごとの総エネルギに関する情報は、マルチチャネル再生装置21におけるレベル補正にも有効活用できるからである。更に、好ましくは、相関処理は、差分フィンガープリントに基づいて行われる。この場合、既に述べたように、ブロック9は相関器より前の段階で差分処理を行い、ブロック11も相関器より前の段階で差分処理を行う。
Next, the function of the
図9の上部2つの図に示すように、相関器29は曲線および/または一連の離散値を示し、また、図9の最下部の図に示すような相関結果を得る。この相関結果では、オフセット成分は2つのフィンガープリント情報曲線の間のオフセットを示す。更に、オフセットは正であるため、マルチチャネル補助情報を正の時間方向へシフト、つまり遅延しなければならない。なお、マルチチャネル再生装置における2つの情報の入力時に同期マルチチャネル表現を含んでさえいれば、当然、基本チャネルデータを負の時間方向へシフトしてもよい。あるいは、マルチチャネル補助情報を正の方向へいくらかシフトし、且つ基本チャネル補助データをオフセットのうちいくらか分、負の方向へシフトしてもよい。
As shown in the top two diagrams of FIG. 9, the
次に、図10を参照して、音声出力と平行してオフセットを計算する際の好ましい実施例について説明する。基本チャネルデータが常に1つのフィンガープリントを計算するようにバッファリングし、マルチチャネル再生のために、既に計算したテストブロックフィンガープリントをマルチチャネル再生装置へ送信する。次に、同様に基本チャネルデータの次のブロックをバッファ25へ送信し、このブロックからテストブロックフィンガープリントを計算する。例えば、200個のブロックについて、この処理を実行する。しかしながら、この200個のブロックは、「簡単な」マルチチャネル再生として、単にステレオ出力データとしてマルチチャネル再生装置からステレオ出力される。この場合、ユーザは遅延には気づかない。
Next, a preferred embodiment for calculating the offset in parallel with the audio output will be described with reference to FIG. The basic channel data is always buffered so as to calculate one fingerprint, and the already calculated test block fingerprint is transmitted to the multi-channel playback device for multi-channel playback. Next, similarly, the next block of basic channel data is transmitted to the
実施例によっては、200個より少ない、もしくは200個より多い数のブロックを使用してもよい。本発明によれば、100個から300個の間の数のブロック、好ましくは200個のブロックから、計算時間・相関計算作業量・オフセットの正確性の間に妥当な妥協点を得られることが分かっている。 Depending on the embodiment, fewer than 200 or more than 200 blocks may be used. According to the present invention, it is possible to obtain a reasonable compromise between the calculation time, the correlation calculation workload, and the accuracy of the offset from the number of blocks between 100 and 300, preferably 200 blocks. I know it.
ブロック36の処理が完了すると、ブロック37の処理を実行する。ここでは、計算した200個のテストブロックフィンガープリントと計算した200個の参照ブロックフィンガープリントを相関器29により相関処理し、得られるオフセット結果を記憶する。そして、次の例えば200個の基本チャネルデータブロックを、ブロック36の処理に相当するブロック38の処理に基づき計算する。同様に、200個のブロックをマルチチャネル補助情報を含むデータストリームから抽出する。続いて、ブロック39で同様に相関処理を行い、得られるオフセット結果を記憶する。そして、ブロック40の処理で、第1の200個のブロック群に基づくオフセット結果と、第2の200個のブロック郡に基づくオフセット結果の偏差値を決定する。ブロック41の処理では、この偏差値が所定の閾値より小さい場合、オフセットを図8に示すタイムシフタ28へオフセットライン30を介して送信し、スイッチ32を閉鎖する。それにより、この時点でマルチチャネル出力のスイッチを構成する。偏差値に対する所定の閾値は、例えば、1つもしくは2つブロック分である。これは、オフセットが最初の計算と次の計算の間で、1つもしくは2つブロック分以上違わなければ、相関計算処理において誤りは発生しないからである。
When the process of
上記の実施例とは違い、例えば200個のブロック分の窓の長さに基づくスライドウインドウを利用してもよい。例えば、200個のブロックの計算を行い、結果を得る。そして、1個先のブロックを処理し、相関計算処理に使ったブロックからブロックを1個削除し、変わりに新しいブロックを使う。先に得られた結果同様に、計算した結果をヒストグラムに記録する。この処理を、相関計算処理の回数分だけ、つまり、例えば100個か200個行い、段階的にヒストグラムを埋める。ヒストグラムの頂点をオフセットとして計算し、最初のオフセットを算出し、もしくは動的再調整を行う。 Unlike the above embodiment, for example, a sliding window based on the length of a window of 200 blocks may be used. For example, 200 blocks are calculated and the result is obtained. Then, one block ahead is processed, one block is deleted from the block used for the correlation calculation processing, and a new block is used instead. Similar to the result obtained earlier, the calculated result is recorded in the histogram. This process is performed as many times as the number of correlation calculation processes, that is, for example, 100 or 200, and the histogram is filled stepwise. The vertex of the histogram is calculated as an offset, the first offset is calculated, or dynamic readjustment is performed.
オフセット計算は出力と同時に行われ、ブロック42の処理と平行して行われる。必要であれば、マルチチャネル情報を含むデータストリームおよび基本チャネルデータを含むデータストリームが正しく対応付けされていないのが発見された場合、更新したオフセット値を図8に示すタイムシフタ28にライン30を介して送信し、適応および/または動的オフセットトラッキングを実行する。なお、適応トラッキングを行う際は、実施例に応じてオフセット変化を平滑化し、例えば2つのブロックの偏差値を求めた時に、必要に応じてオフセットを1つずつ増加し続け、曲線が急激に変化しないようにしてもよい。
The offset calculation is performed simultaneously with the output, and is performed in parallel with the processing of the
次に、図11を参照して、図1に示すエンコーダ側のフィンガープリント生成装置2および図2に示すデコーダ側のフィンガープリント生成装置11の好ましい実施例について述べる。
Next, a preferred embodiment of the encoder-
通常、マルチチャネル音声信号は、マルチチャネル補助データを取得するために、所定のサイズのブロックに分割される。この時、マルチチャネル補助データの取得と同時に、ブロックごとのフィンガープリントを計算する。この方法は、信号の時間構造を出来るだけ一意的に特徴付けるのに有効である。この考えに基づく実施例では、音声ブロックの現在のダウンミックス音声信号におけるエネルギ容量を例えばデシベル表現のような対数形式で利用する。この場合、フィンガープリントは音声信号の時間エンベロープを表す。送信する情報量を減少し、測定値の正確性を向上させるために、このような同期情報を先行するブロックのエネルギ値との差分として表現してもよく、その後に適宜、例えばハフマン符号化などのエントロピ符号化、適応スケーリング、および量子化を実行してもよい。時間エンベロープのフィンガープリントは以下ように求める。 Usually, a multi-channel audio signal is divided into blocks of a predetermined size in order to obtain multi-channel auxiliary data. At this time, the fingerprint for each block is calculated simultaneously with the acquisition of the multi-channel auxiliary data. This method is effective for characterizing the temporal structure of the signal as uniquely as possible. In an embodiment based on this idea, the energy capacity in the current downmix audio signal of the audio block is utilized in a logarithmic form, for example in decibel representation. In this case, the fingerprint represents the time envelope of the audio signal. In order to reduce the amount of information to be transmitted and improve the accuracy of the measurement value, such synchronization information may be expressed as a difference from the energy value of the preceding block, after which, for example, Huffman coding etc. Entropy coding, adaptive scaling, and quantization may be performed. The fingerprint of the time envelope is obtained as follows.
まず、図11の1に示すように、現在のブロックにおけるダウンミックス音声信号のエネルギを、通常、ステレオ信号について計算する。例えば、左右両方のダウンミックスチャネルの1152個の音声サンプルをそれぞれ二乗し、合計する。Sleft(i)は左基本チャネルの時間iにおける時間サンプルを表し、Sright(i)は右基本チャネルの時間iにおける時間サンプルを表す。モノラルのダウンミックス信号では、合計処理は行われない。更に、好ましくは、ダウンミックス音声信号において、本発明に重要ではない直接の構成要素を計算処理の前の段階で削除する。 First, as shown by 1 in FIG. 11, the energy of the downmix audio signal in the current block is normally calculated for a stereo signal. For example, 1152 audio samples of both the left and right downmix channels are squared and summed. S left (i) represents the time sample at time i of the left basic channel, and S right (i) represents the time sample at time i of the right basic channel. Sum processing is not performed on a monaural downmix signal. Further, preferably, in the downmix audio signal, the direct components not important to the present invention are deleted at a stage before the calculation process.
次に行われる対数表現のために、ステップ2においてエネルギの最小化を行う。エネルギをデシベル分析するために、好ましくは最小エネルギオフセットを使い、ゼロエネルギの場合には、妥当な対数計算が行われるようにする。このエネルギ尺度をdBで表すと、16ビットの音声信号解像度では、0〜90(dB)の範囲になる。
In
図11の3に示すように、マルチチャネル補助情報および受信した信号の間のタイムオフセットを正確に決定する際には、絶対エネルギエンベロープではなく、信号エンベロープの傾き(傾斜度)を使用するのが好ましい。したがって、エネルギエンベロープの傾きのみを相関計算処理に使用する。技術的な面から言うと、この信号導出は、先行するブロックのエネルギ値との間の差分処理により計算する。この処理は、例えばエンコーダなどで実行され、フィンガープリントは差分符号化された値からなる。また、この処理は、デコーダのみで実行してもよい。この場合、送信されたフィンガープリントは非差分符号化の値からなる。この時、差分の計算はデコーダのみで行われる。後者の解決法においては、フィンガープリントがダウンミックス信号の絶対エネルギに関する情報を含むという利点がある。しかしながら、典型的には、フィンガープリントにおいて、いくらか長いワード長を必要とする。 As shown in FIG. 11-3, when accurately determining the time offset between the multi-channel auxiliary information and the received signal, the slope (gradient) of the signal envelope is used instead of the absolute energy envelope. preferable. Therefore, only the slope of the energy envelope is used for the correlation calculation process. From a technical point of view, this signal derivation is calculated by a difference process between the energy values of the preceding blocks. This process is executed by an encoder or the like, for example, and the fingerprint consists of a differentially encoded value. Further, this process may be executed only by the decoder. In this case, the transmitted fingerprint consists of non-differential encoded values. At this time, the difference is calculated only by the decoder. The latter solution has the advantage that the fingerprint contains information about the absolute energy of the downmix signal. However, typically a somewhat longer word length is required in the fingerprint.
さらに、最適制御のために、エネルギ(信号のエンベロープ)をスケーリングするのが好ましい。次に行うこのフィンガープリントの量子化において、数値的な幅を最大まで活用し、さらに低いエネルギ値に対する解像度を向上するために、さらにスケーリング(利得)するのが有効である。スケーリングは所定の統計的重み付けにより実行してもよいし、あるいはエンベロープ信号に適応された動的利得制御により実行してもよい。 Furthermore, it is preferable to scale the energy (signal envelope) for optimal control. In the subsequent fingerprint quantization, it is useful to further scale (gain) to take full advantage of the numerical width and improve the resolution for even lower energy values. Scaling may be performed with a predetermined statistical weighting or with dynamic gain control adapted to the envelope signal.
さらに、図11の5に示すように、フィンガープリントを量子化する。このフィンガープリントをマルチチャネル補助情報に挿入するために8ビットに量子化する。実際、この減少したフィンガープリント解像度は、必要となるビット数や遅延の検出における信頼度の面から有効な妥協点であることが分かっている。255を超える数のオーバーフローについては、特性飽和曲線により255が最大値となるよう制限されている。 Further, as shown by 5 in FIG. 11, the fingerprint is quantized. This fingerprint is quantized to 8 bits for insertion into multi-channel auxiliary information. In fact, this reduced fingerprint resolution has proven to be an effective compromise in terms of reliability in detecting the required number of bits and delay. The number of overflows exceeding 255 is limited by the characteristic saturation curve so that 255 is the maximum value.
図11の6に示すように、この時点でフィンガープリントを最適エントロピ符号化してもよい。フィンガープリントの統計的特性を求めることにより、量子化フィンガープリントが必要とするビット数を更に減少できる。有効なエントロピ方法は、例えばハフマン符号化や算術符号化である。フィンガープリントごとの統計的に異なる周波数は、異なる符号長により表し、フィンガープリント表現において平均的に必要なビット数を減少してもよい。
マルチチャネル補助データの計算は、マルチチャネル音声信号を利用して、音声ブロックごとに行われる。計算されたマルチチャネル補助情報は続いて同期情報により拡張され、適当な埋込み処理によりビットストリームに追加される。
As indicated by 6 in FIG. 11, the fingerprint may be optimally entropy encoded at this point. By determining the statistical characteristics of the fingerprint, the number of bits required by the quantization fingerprint can be further reduced. An effective entropy method is, for example, Huffman coding or arithmetic coding. Statistically different frequencies for each fingerprint may be represented by different code lengths, reducing the average number of bits required in the fingerprint representation.
Multi-channel auxiliary data is calculated for each audio block using a multi-channel audio signal. The calculated multi-channel auxiliary information is subsequently extended with synchronization information and added to the bitstream by an appropriate embedding process.
本発明の解決策によれば、受信装置はダウンミックス信号と補助情報のタイムオフセットを検出し、時間にずれのない適応化、つまり、ステレオ音声信号とマルチチャネル補助情報の間の遅延を、プラスマイナス音声ブロック半分分の範囲で補間する。したがって、受信装置において、マルチチャネル構造はほぼ完全に、つまりプラスマイナス音声フレーム半分分のほとんど知覚されない時間のずれを除いて、再生される。この場合、再生されたマルチチャネル音声信号の品質に、特筆するほどの影響は与えない。 According to the solution of the present invention, the receiving device detects the time offset between the downmix signal and the auxiliary information and adds a time-free adaptation, i.e. a delay between the stereo audio signal and the multi-channel auxiliary information. Interpolate in the range of half the negative audio block. Thus, at the receiving device, the multi-channel structure is reproduced almost completely, i.e., with little perceptible time lag of half a plus or minus voice frame. In this case, the quality of the reproduced multi-channel audio signal is not significantly affected.
環境に応じて、本発明による生成方法および/または復号化方法はハードウエアまたはソフトウエアのいずれで実現してもよい。これは、デジタル記憶媒体、特に電子的に読出し可能な制御信号を備えるフロッピーディスクやCD上で実現され、フロッピーディスクやCDは、本発明による方法が実行されるように、プログラム可能なコンピュータシステムと連動できる。一般に、本発明は、コンピュータで実行し、本発明の方法を実現するための機械で読取り可能な担体上に記憶されたプログラム符号を有するコンピュータプログラム製品においても実現される。すなわち、本発明は、コンピュータ上で実行すれば、本発明による方法を実現するためのプログラム符号を有するコンピュータプログラムとして、実現することもできる。 Depending on the environment, the generation method and / or the decoding method according to the present invention may be implemented in either hardware or software. This is realized on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which can be programmed with a programmable computer system so that the method according to the invention can be carried out. Can be linked. In general, the invention is also implemented in a computer program product having a program code stored on a machine-readable carrier for executing the method of the invention on a computer. In other words, the present invention can be realized as a computer program having a program code for realizing the method according to the present invention when executed on a computer.
Claims (33)
前記元のマルチチャネル信号から生成した1以上かつ前記元のマルチチャネル信号のチャネル数より少ない数の1以上の基本チャネルから、前記1以上の基本チャネルに時間経過を付与するフィンガープリント情報を生成するフィンガープリント生成装置(2)および、
前記1以上の基本チャネルと組合わせることにより前記元のマルチチャネル信号のマルチチャネル再生を可能にする時間可変的マルチチャネル補助情報のデータストリームを前記フィンガープリント情報から生成するデータストリーム生成装置(4)を備え、
前記データストリーム生成装置(4)は前記マルチチャネル補助情報および前記フィンガープリント情報の間の時間的対応関係を前記データストリームから生成するための前記データストリームを生成する、装置。 An apparatus for generating a data stream for multi-channel reproduction of an original multi-channel signal having two or more channels,
Fingerprint information that gives a time lapse to the one or more basic channels is generated from one or more basic channels that are one or more generated from the original multichannel signal and less than the number of channels of the original multichannel signal. A fingerprint generator (2); and
A data stream generating device (4) for generating a data stream of time-variable multi-channel auxiliary information that enables multi-channel reproduction of the original multi-channel signal by combining with the one or more basic channels from the fingerprint information With
The data stream generator (4) generates the data stream for generating a temporal correspondence between the multi-channel auxiliary information and the fingerprint information from the data stream.
マルチチャネル再生のために前記1以上の基本チャネルのブロックと組合わせるために前記マルチチャネル補助情報をブロック処理により計算し、
前記データストリーム生成装置(4)は前記マルチチャネル補助情報および前記フィンガープリント情報をブロック処理により前記データストリームに書き込む、請求項1に記載の装置。 The fingerprint generation device (2) generates the fingerprint information by blocking the one or more basic channels.
Calculating the multi-channel auxiliary information by block processing to combine with the one or more basic channel blocks for multi-channel playback;
The device according to claim 1, wherein the data stream generation device (4) writes the multi-channel auxiliary information and the fingerprint information to the data stream by block processing.
前記マルチチャネル補助情報のブロックはマルチチャネル再生のために前記基本チャネルのブロックと組合わされ、
前記マルチチャネル補助情報のブロックおよび前記フィンガープリントのブロックが互いに所定の対応関係を形成するように、前記データストリーム生成装置(4)はブロック処理にて前記データストリームを生成する、請求項2に記載の装置。 The fingerprint generation device (2) generates a block fingerprint that gives a time lapse to the basic channel in the block as fingerprint information about the block of the one or more basic channels,
The multi-channel auxiliary information block is combined with the basic channel block for multi-channel playback,
The said data stream production | generation apparatus (4) produces | generates the said data stream by a block process so that the block of the said multi-channel auxiliary information and the block of the said fingerprint may form predetermined correspondence mutually. Equipment.
前記マルチチャネル補助情報を、時間的に連続する前記1以上の基本チャネルのブロックに対しブロック処理にて生成し、
前記データストリーム生成装置は、前記一連のマルチチャネル補助情報のブロックに対し所定の関係で前記一連のブロックフィンガープリントを書き込む、請求項2に記載の装置。 The fingerprint generation device (2) calculates a series of block fingerprints as fingerprint information for the one or more basic channel blocks that are temporally continuous,
The multi-channel auxiliary information is generated by block processing for the one or more basic channel blocks that are temporally continuous,
3. The apparatus of claim 2, wherein the data stream generator writes the series of block fingerprints in a predetermined relationship to the series of multi-channel auxiliary information blocks.
前記データストリーム生成装置(4)は、データストリームのブロックが、マルチチャネル補助情報のブロックおよびそれに対応するフィンガープリント情報のブロックおよび前記1以上の基本チャネルのブロックからなるようにブロック処理にて前記データストリームを生成する、請求項1から請求項7のいずれかに記載の装置。 The fingerprint generation device (2) calculates the fingerprint information by block processing,
The data stream generation device (4) performs block processing so that the data stream block includes a multi-channel auxiliary information block, a corresponding fingerprint information block, and the one or more basic channel blocks. The apparatus according to claim 1, which generates a stream.
前記フィンガープリント生成装置(2)は前記2以上の基本チャネルをサンプル処理もしくはスペクトル処理により加算、もしくは二乗し加算する、請求項1から請求項8のいずれかに記載の装置。 There are two or more basic channels,
The device according to any one of claims 1 to 8, wherein the fingerprint generation device (2) adds or squares the two or more basic channels by sample processing or spectral processing.
前記フィンガープリント生成装置(2)は更に、前記エネルギの最小化を利用し、最小エネルギを対数表現する、請求項10に記載の装置。 The fingerprint generation device (2) uses data relating to an energy envelope of the one or more basic channels as fingerprint information,
11. The device according to claim 10, wherein the fingerprint generator (2) further utilizes the energy minimization to logarithmically represent the minimum energy.
前記符号化形式は非可逆エンコーダにより生成され、
更に、前記1以上の基本チャネルを前記フィンガープリント生成装置(2)に対する入力信号として復号化するための基本チャネルデコーダを備える、請求項11に記載の装置。 The one or more basic channels are transmitted in encoded form to a multi-channel playback device;
The encoding format is generated by a lossy encoder,
12. Apparatus according to claim 11, further comprising a basic channel decoder for decoding the one or more basic channels as an input signal to the fingerprint generator (2).
前記フィンガープリント生成装置(2)はブロックフィンガープリント値を前記1以上の基本チャネルの各ブロック値から計算する、請求項13に記載の装置。 A multi-channel analyzer (112) for generating a block of the one or more basic channels and a block of the multi-channel auxiliary information by block processing;
14. The device according to claim 13, wherein the fingerprint generator (2) calculates a block fingerprint value from each block value of the one or more basic channels.
テストフィンガープリント情報を前記1以上の基本チャネルから生成するためのフィンガープリント生成装置(11)、
前記データストリームからフィンガープリント情報を抽出し、参照フィンガープリント情報を生成するためのフィンガープリント抽出装置(9)および、
前記テストフィンガープリント情報、前記参照フィンガープリント情報および、前記データストリームに含まれ且つ前記データストリームから生成される前記マルチチャネル情報および前記フィンガープリント情報の対応関係を利用して、前記マルチチャネル補助情報および前記1以上の基本チャネルを時間的に同期し、同期マルチチャネル表現を生成する同期装置(13)を備える、装置。 One or more basic channels, fingerprint information that gives a time lapse to the one or more basic channels, and a multi that enables the multi-channel reproduction of the original multi-channel signal by combining with the one or more basic channels An apparatus for generating a multi-channel representation (18, 20) of an original multi-channel signal from a data stream including channel auxiliary information, wherein the correspondence between the multi-channel auxiliary information and the fingerprint information is generated from the data stream. ,
A fingerprint generation device (11) for generating test fingerprint information from the one or more basic channels;
A fingerprint extractor (9) for extracting fingerprint information from the data stream and generating reference fingerprint information; and
Using the correspondence between the test fingerprint information, the reference fingerprint information, the multi-channel information included in the data stream and generated from the data stream, and the fingerprint information, the multi-channel auxiliary information and An apparatus comprising a synchronizer (13) for synchronizing the one or more elementary channels in time and generating a synchronized multi-channel representation.
前記抽出装置(9)は、マルチチャネル補助データのブロックに対し、時間的対応関係に基づき対応するフィンガープリント値を決定し、
前記フィンガープリント生成装置(11)は、一連の前記1以上の基本チャネルのブロックに対し、一連のテストフィンガープリント値をテストフィンガープリント情報として決定し、
前記同期装置(13)は前記マルチチャネル補助データのブロックおよび前記1以上の基本チャネルのブロックとの間のオフセットを、前記一連のテストフィンガープリント値および前記一連の参照フィンガープリント値の間のオフセット(30)に基づき計算し、前記一連のマルチチャネル補助情報のブロックを計算したオフセットに基づき遅延(28)することにより前記オフセットを補間する、請求項17または請求項18に記載の装置。 The data stream consists of a series of multi-channel auxiliary data blocks corresponding in time to a series of reference fingerprint values as reference fingerprint information;
The extraction device (9) determines a corresponding fingerprint value based on a temporal correspondence for a block of multi-channel auxiliary data;
The fingerprint generator (11) determines a series of test fingerprint values as test fingerprint information for a series of blocks of the one or more basic channels,
The synchronizer (13) calculates an offset between the block of multi-channel auxiliary data and the block of one or more basic channels, and an offset between the series of test fingerprint values and the series of reference fingerprint values ( 19. The apparatus according to claim 17 or 18, wherein the offset is interpolated by calculating based on 30) and delaying (28) based on the calculated offset of the series of multi-channel auxiliary information blocks.
前記フィンガープリント生成装置(11)は前記2以上の基本チャネルをサンプル処理またはスペクトラム処理により加算、または二乗し加算する、請求項17から請求項21のいずれかに記載の装置。 There are two or more basic channels,
The device according to any one of claims 17 to 21, wherein the fingerprint generation device (11) adds or squares the two or more basic channels by sample processing or spectrum processing.
前記フィンガープリント生成装置(11)は更に、前記エネルギの最小化を利用し、最小エネルギを対数表現する、請求項17から請求項23のいずれかに記載の装置。 The fingerprint generator (11) uses data relating to the energy envelope of the one or more basic channels as fingerprint information,
24. Apparatus according to any of claims 17 to 23, wherein the fingerprint generator (11) further utilizes the energy minimization to logarithmically represent the minimum energy.
前記フィンガープリント生成装置(11)は、前記1以上の基本チャネルの2つのブロックフィンガープリント間の差分をテストフィンガープリント情報として計算し、
前記フィンガープリント抽出装置(9)は更に前記データストリームに含まれる2つのブロックフィンガープリント間の差分を計算し、参照フィンガープリントとして前記同期装置(13)に送信する、請求項17から請求項24のいずれかに記載の装置。 A block of multi-channel auxiliary information and a block fingerprint are included in the block of the data stream that is block-configured,
The fingerprint generation device (11) calculates a difference between two block fingerprints of the one or more basic channels as test fingerprint information,
25. The fingerprint extraction device (9) further calculates a difference between two block fingerprints included in the data stream and sends it as a reference fingerprint to the synchronization device (13). The device according to any one of the above.
前記元のマルチチャネル信号から生成した、1以上且つ前記元のマルチチャネル信号のチャネル数よりも少ない数の1以上の基本チャネルから、前記1以上の基本チャネルに時間経過を付与するフィンガープリント情報を生成(2)し、
フィンガープリント情報から時間可変的なマルチチャネル補助情報のデータストリームを生成(4)し、前記1以上の基本チャネルと組み合わさって前記元のマルチチャネル信号のマルチチャネル再生を可能にし、前記マルチチャネル補助情報および前記フィンガープリント情報の時間的対応関係を前記データストリームから生成できるように前記データストリームを生成する、方法。 A data stream generation method for multi-channel reproduction of an original multi-channel signal having two or more channels,
Fingerprint information that gives a time lapse to one or more basic channels from one or more basic channels that are generated from the original multi-channel signal and less than the number of channels of the original multi-channel signal. Generate (2),
A time-variable multi-channel auxiliary information data stream is generated from the fingerprint information (4) and combined with the one or more basic channels to enable multi-channel reproduction of the original multi-channel signal. Generating the data stream such that a temporal correspondence of information and the fingerprint information can be generated from the data stream.
テストフィンガープリント情報を前記1以上の基本チャネルから生成(11)し、
前記フィンガープリント情報を前記データストリームから抽出(9)し、参照フィンガープリント情報を生成し、および
前記テストフィンガープリント情報、前記参照フィンガープリント情報、および前記マルチチャネル補助情報および前記データストリームに含まれ且つ前記データストリームから生成される前記フィンガープリント情報の対応関係に基づき、前記マルチチャネル補助情報および前記1以上の基本チャネルを同期(13)し、同期マルチチャネル表現を生成する、方法。 The original multi-channel signal multi-channel representation (18, 20) in combination with one or more basic channels and fingerprint information for giving a time lapse to the one or more basic channels and the one or more basic channels Generating from a data stream including multi-channel auxiliary information enabling multi-channel reproduction of a multi-channel signal, wherein the correspondence between the multi-channel auxiliary information and the fingerprint information is generated from the data stream,
Generating (11) test fingerprint information from the one or more basic channels;
Extracting (9) the fingerprint information from the data stream, generating reference fingerprint information, and being included in the test fingerprint information, the reference fingerprint information, and the multi-channel auxiliary information and the data stream; A method of synchronizing (13) the multi-channel auxiliary information and the one or more basic channels based on a correspondence relationship of the fingerprint information generated from the data stream to generate a synchronized multi-channel representation.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102005014477.2 | 2005-03-30 | ||
DE102005014477A DE102005014477A1 (en) | 2005-03-30 | 2005-03-30 | Apparatus and method for generating a data stream and generating a multi-channel representation |
PCT/EP2006/002369 WO2006102991A1 (en) | 2005-03-30 | 2006-03-15 | Device and method for producing a data flow and for producing a multi-channel representation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008538239A true JP2008538239A (en) | 2008-10-16 |
JP5273858B2 JP5273858B2 (en) | 2013-08-28 |
Family
ID=36598142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008503398A Active JP5273858B2 (en) | 2005-03-30 | 2006-03-15 | Apparatus and method for generating data streams and multi-channel representations |
Country Status (12)
Country | Link |
---|---|
US (1) | US7903751B2 (en) |
EP (1) | EP1864279B1 (en) |
JP (1) | JP5273858B2 (en) |
CN (1) | CN101189661B (en) |
AT (1) | ATE434253T1 (en) |
AU (1) | AU2006228821B2 (en) |
CA (1) | CA2603027C (en) |
DE (2) | DE102005014477A1 (en) |
HK (1) | HK1111259A1 (en) |
MY (1) | MY139836A (en) |
TW (1) | TWI318845B (en) |
WO (1) | WO2006102991A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011512555A (en) * | 2008-02-14 | 2011-04-21 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Apparatus and method for synchronization of multi-channel extension data with audio signals and processing of audio signals |
JP2011512554A (en) * | 2008-02-14 | 2011-04-21 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Apparatus and method for calculating fingerprint of audio signal, apparatus and method for synchronization, and apparatus and method for characterization of test audio signal |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1962082A1 (en) | 2007-02-21 | 2008-08-27 | Agfa HealthCare N.V. | System and method for optical coherence tomography |
US8612237B2 (en) * | 2007-04-04 | 2013-12-17 | Apple Inc. | Method and apparatus for determining audio spatial quality |
EP2215797A1 (en) * | 2007-12-03 | 2010-08-11 | Nokia Corporation | A packet generator |
CN101809656B (en) * | 2008-07-29 | 2013-03-13 | 松下电器产业株式会社 | Sound coding device, sound decoding device, sound coding/decoding device, and conference system |
JP5602138B2 (en) * | 2008-08-21 | 2014-10-08 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Feature optimization and reliability prediction for audio and video signature generation and detection |
EP2650877B1 (en) * | 2008-10-06 | 2016-04-06 | Telefonaktiebolaget LM Ericsson (publ) | Method and apparatus for delivery of aligned multi-channel audio |
CN103177725B (en) * | 2008-10-06 | 2017-01-18 | 爱立信电话股份有限公司 | Method and device for transmitting aligned multichannel audio frequency |
KR20110138367A (en) * | 2009-03-13 | 2011-12-27 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | Embedding and extracting ancillary data |
GB2470201A (en) * | 2009-05-12 | 2010-11-17 | Nokia Corp | Synchronising audio and image data |
US8436939B2 (en) * | 2009-10-25 | 2013-05-07 | Tektronix, Inc. | AV delay measurement and correction via signature curves |
US9426574B2 (en) * | 2010-03-19 | 2016-08-23 | Bose Corporation | Automatic audio source switching |
EP2458890B1 (en) * | 2010-11-29 | 2019-01-23 | Nagravision S.A. | Method to trace video content processed by a decoder |
US9075806B2 (en) * | 2011-02-22 | 2015-07-07 | Dolby Laboratories Licensing Corporation | Alignment and re-association of metadata for media streams within a computing device |
KR101767175B1 (en) | 2011-03-18 | 2017-08-10 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Frame element length transmission in audio coding |
US8639921B1 (en) | 2011-06-30 | 2014-01-28 | Amazon Technologies, Inc. | Storage gateway security model |
US10754813B1 (en) | 2011-06-30 | 2020-08-25 | Amazon Technologies, Inc. | Methods and apparatus for block storage I/O operations in a storage gateway |
US8706834B2 (en) | 2011-06-30 | 2014-04-22 | Amazon Technologies, Inc. | Methods and apparatus for remotely updating executing processes |
US8806588B2 (en) | 2011-06-30 | 2014-08-12 | Amazon Technologies, Inc. | Storage gateway activation process |
US8832039B1 (en) * | 2011-06-30 | 2014-09-09 | Amazon Technologies, Inc. | Methods and apparatus for data restore and recovery from a remote data store |
US9294564B2 (en) | 2011-06-30 | 2016-03-22 | Amazon Technologies, Inc. | Shadowing storage gateway |
US8639989B1 (en) | 2011-06-30 | 2014-01-28 | Amazon Technologies, Inc. | Methods and apparatus for remote gateway monitoring and diagnostics |
US8793343B1 (en) | 2011-08-18 | 2014-07-29 | Amazon Technologies, Inc. | Redundant storage gateways |
US8789208B1 (en) | 2011-10-04 | 2014-07-22 | Amazon Technologies, Inc. | Methods and apparatus for controlling snapshot exports |
US9635132B1 (en) | 2011-12-15 | 2017-04-25 | Amazon Technologies, Inc. | Service and APIs for remote volume-based block storage |
KR20130101629A (en) * | 2012-02-16 | 2013-09-16 | 삼성전자주식회사 | Method and apparatus for outputting content in a portable device supporting secure execution environment |
EP2670157B1 (en) * | 2012-06-01 | 2019-10-02 | Koninklijke KPN N.V. | Fingerprint-based inter-destination media synchronization |
CN102820964B (en) * | 2012-07-12 | 2015-03-18 | 武汉滨湖电子有限责任公司 | Method for aligning multichannel data based on system synchronizing and reference channel |
EP2693392A1 (en) | 2012-08-01 | 2014-02-05 | Thomson Licensing | A second screen system and method for rendering second screen information on a second screen |
CN102937938B (en) * | 2012-11-29 | 2015-05-13 | 北京天诚盛业科技有限公司 | Fingerprint processing device as well as control method and device thereof |
TWI557727B (en) * | 2013-04-05 | 2016-11-11 | 杜比國際公司 | An audio processing system, a multimedia processing system, a method of processing an audio bitstream and a computer program product |
JP6349977B2 (en) * | 2013-10-21 | 2018-07-04 | ソニー株式会社 | Information processing apparatus and method, and program |
US20150302086A1 (en) * | 2014-04-22 | 2015-10-22 | Gracenote, Inc. | Audio identification during performance |
US20160344902A1 (en) * | 2015-05-20 | 2016-11-24 | Gwangju Institute Of Science And Technology | Streaming reproduction device, audio reproduction device, and audio reproduction method |
US10621765B2 (en) * | 2015-07-07 | 2020-04-14 | Idex Asa | Image reconstruction |
KR20180081504A (en) * | 2015-11-09 | 2018-07-16 | 소니 주식회사 | Decode device, decode method, and program |
EP3249646B1 (en) * | 2016-05-24 | 2019-04-17 | Dolby Laboratories Licensing Corp. | Measurement and verification of time alignment of multiple audio channels and associated metadata |
US10015612B2 (en) | 2016-05-25 | 2018-07-03 | Dolby Laboratories Licensing Corporation | Measurement, verification and correction of time alignment of multiple audio channels and associated metadata |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
CN112986963B (en) * | 2021-02-08 | 2024-05-03 | 武汉徕得智能技术有限公司 | Laser pulse ranging echo signal multipath scaling result selection control method |
CN112995708A (en) * | 2021-04-21 | 2021-06-18 | 湖南快乐阳光互动娱乐传媒有限公司 | Multi-video synchronization method and device |
CN114003546B (en) * | 2022-01-04 | 2022-04-12 | 之江实验室 | Multi-channel switching value composite coding design method and device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000155598A (en) * | 1998-11-19 | 2000-06-06 | Matsushita Electric Ind Co Ltd | Coding/decoding method and device for multiple-channel audio signal |
JP2004505328A (en) * | 2000-07-31 | 2004-02-19 | シャザム エンターテインメント リミテッド | System and method for recognizing sound / musical signal under high noise / distortion environment |
JP2004078183A (en) * | 2002-06-24 | 2004-03-11 | Agere Systems Inc | Multi-channel/cue coding/decoding of audio signal |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY123651A (en) * | 1999-04-07 | 2006-05-31 | Dolby Laboratories Licensing Corp | Matrix improvements to lossless encoding and decoding |
US7013301B2 (en) * | 2003-09-23 | 2006-03-14 | Predixis Corporation | Audio fingerprinting system and method |
TW510144B (en) | 2000-12-27 | 2002-11-11 | C Media Electronics Inc | Method and structure to output four-channel analog signal using two channel audio hardware |
US7461002B2 (en) * | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US20030035553A1 (en) | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
JP4425126B2 (en) * | 2002-04-25 | 2010-03-03 | ランドマーク・デジタル・サービシーズ・エルエルシー | Robust and invariant voice pattern matching |
WO2003098627A2 (en) * | 2002-05-16 | 2003-11-27 | Koninklijke Philips Electronics N.V. | Signal processing method and arrangement |
CN100521781C (en) * | 2003-07-25 | 2009-07-29 | 皇家飞利浦电子股份有限公司 | Method and device for generating and detecting fingerprints for synchronizing audio and video |
DE602005005640T2 (en) | 2004-03-01 | 2009-05-14 | Dolby Laboratories Licensing Corp., San Francisco | MULTI-CHANNEL AUDIOCODING |
DE102004046746B4 (en) * | 2004-09-27 | 2007-03-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for synchronizing additional data and basic data |
US7567899B2 (en) * | 2004-12-30 | 2009-07-28 | All Media Guide, Llc | Methods and apparatus for audio recognition |
-
2005
- 2005-03-30 DE DE102005014477A patent/DE102005014477A1/en not_active Withdrawn
-
2006
- 2006-03-15 CA CA2603027A patent/CA2603027C/en active Active
- 2006-03-15 CN CN200680019473XA patent/CN101189661B/en active Active
- 2006-03-15 AU AU2006228821A patent/AU2006228821B2/en active Active
- 2006-03-15 EP EP06707562A patent/EP1864279B1/en active Active
- 2006-03-15 WO PCT/EP2006/002369 patent/WO2006102991A1/en active Application Filing
- 2006-03-15 DE DE502006003997T patent/DE502006003997D1/en active Active
- 2006-03-15 AT AT06707562T patent/ATE434253T1/en active
- 2006-03-15 JP JP2008503398A patent/JP5273858B2/en active Active
- 2006-03-17 MY MYPI20061193A patent/MY139836A/en unknown
- 2006-03-27 TW TW095110552A patent/TWI318845B/en active
-
2007
- 2007-09-28 US US11/863,523 patent/US7903751B2/en active Active
-
2008
- 2008-06-03 HK HK08106159.6A patent/HK1111259A1/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000155598A (en) * | 1998-11-19 | 2000-06-06 | Matsushita Electric Ind Co Ltd | Coding/decoding method and device for multiple-channel audio signal |
JP2004505328A (en) * | 2000-07-31 | 2004-02-19 | シャザム エンターテインメント リミテッド | System and method for recognizing sound / musical signal under high noise / distortion environment |
JP2004078183A (en) * | 2002-06-24 | 2004-03-11 | Agere Systems Inc | Multi-channel/cue coding/decoding of audio signal |
Non-Patent Citations (2)
Title |
---|
FALLER, C., ET AL.: ""Efficient Representation of Spatial Audio Using Perceptual Parametrization"", APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS 2001, JPN6009042459, October 2001 (2001-10-01), pages 199 - 202, ISSN: 0002511183 * |
ROLF BARDELI, ET AL.: ""Robust Identification of Time-Scaled Audio"", PROCEEDINGS OF THE AES 25TH INTERNATIONAL CONFERENCE, JPN6010029508, June 2004 (2004-06-01), pages 1 - 12, ISSN: 0001899919 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011512555A (en) * | 2008-02-14 | 2011-04-21 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Apparatus and method for synchronization of multi-channel extension data with audio signals and processing of audio signals |
JP2011512554A (en) * | 2008-02-14 | 2011-04-21 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Apparatus and method for calculating fingerprint of audio signal, apparatus and method for synchronization, and apparatus and method for characterization of test audio signal |
Also Published As
Publication number | Publication date |
---|---|
CN101189661A (en) | 2008-05-28 |
JP5273858B2 (en) | 2013-08-28 |
ATE434253T1 (en) | 2009-07-15 |
US7903751B2 (en) | 2011-03-08 |
TWI318845B (en) | 2009-12-21 |
WO2006102991A1 (en) | 2006-10-05 |
CA2603027C (en) | 2012-09-11 |
EP1864279A1 (en) | 2007-12-12 |
US20080013614A1 (en) | 2008-01-17 |
DE102005014477A1 (en) | 2006-10-12 |
AU2006228821A1 (en) | 2006-10-05 |
TW200644704A (en) | 2006-12-16 |
AU2006228821B2 (en) | 2009-07-23 |
CA2603027A1 (en) | 2006-10-05 |
HK1111259A1 (en) | 2008-08-01 |
EP1864279B1 (en) | 2009-06-17 |
CN101189661B (en) | 2011-10-26 |
DE502006003997D1 (en) | 2009-07-30 |
MY139836A (en) | 2009-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5273858B2 (en) | Apparatus and method for generating data streams and multi-channel representations | |
TWI431610B (en) | Methods and apparatuses for encoding and decoding object-based audio signals | |
JP5455647B2 (en) | Audio decoder | |
JP5006315B2 (en) | Audio signal encoding and decoding method and apparatus | |
CN101952885B (en) | Device and method for synchronizing multi-channel expansion data with an audio signal and for processing the audio signal | |
JP4601669B2 (en) | Apparatus and method for generating a multi-channel signal or parameter data set | |
JP5467105B2 (en) | Apparatus and method for generating an audio output signal using object-based metadata | |
CN101971249B (en) | Fingerprint for calculating an audio signal, device and method for synchronizing and characterizing a test audio signal | |
KR100296838B1 (en) | Sound image positioning device and sound image control method | |
JP5179881B2 (en) | Parametric joint coding of audio sources | |
RU2394283C1 (en) | Methods and devices for coding and decoding object-based audio signals | |
AU2004298708A1 (en) | Fidelity-optimised variable frame length encoding | |
JP2005533271A (en) | Audio encoding | |
KR20140028094A (en) | Method and apparatus for generating side information bitstream of multi object audio signal | |
KR20070001139A (en) | An audio distribution system, an audio encoder, an audio decoder and methods of operation therefore | |
KR100636145B1 (en) | Exednded high resolution audio signal encoder and decoder thereof | |
RU2383941C2 (en) | Method and device for encoding and decoding audio signals | |
JP4743228B2 (en) | DIGITAL AUDIO SIGNAL ANALYSIS METHOD, ITS DEVICE, AND VIDEO / AUDIO RECORDING DEVICE | |
KR101495879B1 (en) | A apparatus for producing spatial audio in real-time, and a system for playing spatial audio with the apparatus in real-time | |
Rumsey | Data reduction for high quality digital audio storage and transmission |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20081218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110722 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120605 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120830 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130513 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5273858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |