WO2006022190A1

WO2006022190A1 - オーディオエンコーダ

Info

Publication number: WO2006022190A1
Application number: PCT/JP2005/015083
Authority: WO
Inventors: Shuji Miyasaka; Yoshiaki Takagi; Naoya Tanaka; Mineo Tsushima
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-08-27
Filing date: 2005-08-18
Publication date: 2006-03-02
Also published as: US7848931B2; US20070271095A1; WO2006022190A9; JP4794448B2; JPWO2006022190A1; CN101010724A; CN101010724B

Abstract

　混合信号だけを復号化することができ、しかも混合信号を分離するのに必要な補助情報を具体的に作成することができるオーディオエンコーダを提供する。　Ｎチャンネル（Ｎ＞１）のオーディオ信号を圧縮符号化するオーディオエンコーダ１０であって、オーディオ信号を混合することにより得られた混合信号を、符号化する混合信号符号化部１１と、混合信号符号化部１１により符号化された混合信号からＮチャンネルのオーディオ信号に復号化するために必要な補助情報を生成する補助情報生成部１２ａとを含み、補助情報生成部１２ａは、オーディオ信号を周波数領域の信号にそれぞれ変換する１２１，１２２と、周波数領域の信号間の相違の度合いを表す位相差情報とゲイン比情報とを検出する検出部１２３と、検出部１２３により検出された位相差情報とゲイン比情報とを、量子化精度設定テーブル１２４を用いて対応する周波数帯域毎に量子化する量子化部１２５とを備える。量子化精度設定テーブル１２４は、周波数領域の信号の周波数帯域を複数に分割する分割手段としても機能する。

Description

オーディオエンコーダ

技術分野

[0001] 本発明は、少なくとも 2チャンネル以上のマルチチャンネル信号を符号ィ匕するォーディォエンコーダに関する。特に、マルチチャンネル信号をダウンミックスした混合信号 (ダウンミックス信号)を元のマルチチャンネルの信号に分離するのに必要な補助情報を具体的に作成する技術に関する。

背景技術

[0002] 近年、 Spatial Codec (空間的符号化） t 、われる技術の開発が行われて、る。これは、非常に少な、情報量でマルチチャンネルの臨場感を圧縮'符号ィ匕することを目的としている。

[0003] 例えば、既にデジタルテレビの音声方式として広く用いられて、るマルチチャンネルコーデックである AAC方式力 5. lch当り 512kbpsや、 384kbpsというビットレー卜を要する。これ【こ対し、 Spatial Codecで ίま、 128kbpsや、 64kbps,さら【こ 48kbp sと、つた非常に少な、ビットレートでマルチチャンネル信号を圧縮 ·符号ィ匕することを目指している。そのための技術として、例えば、特許文献 1がある。

[0004] それによると、チャンネル間のレベル比（以下「レベル差」、「ゲイン比」とも記す。 )等を符号ィ匕することによって、少ない情報量で臨場感を圧縮符号ィ匕することが述べられている。

[0005] より具体的には、聴覚空間（BCC)符号ィ匕において、入力信号のスペクトル成分がダウン混合され、 BCCパラメータ（例えば、チャンネル間レベルおよび Z或いは時間差）が生成され、ステレオ実現においては、左右のチャンネルを周波数領域に変換した後に、対の左右のチャンネルのスペクトル成分がモノ成分にダウン混合される。その後、これらモノ成分と、ダウン混合されなかった左右のチャンネルのスペクトル成分とを時間領域に逆変換することでハイブリッドステレオ信号が生成され、次にこれらハイブリツドステレオ信号を従来の符号ィ匕技術を用いて符号ィ匕される。再生のためには、符号ィ匕されたビット流が従来の復号技術を用いて復号される。次に、 BCC合成技術を用いて BCCパラメータを適用することで、これらモノ成分とダウン混合されなかつたステレオ成分に基づいて聴覚シーンが合成される。

[0006] このため、家庭などの AV機器で本格的に視聴するような場合には、符号化された混合信号を補助情報を用いて分離することで、聴感上、違和感がない程度に信号の分離を達成することが可能となる。しかも、携帯電話機などで、ヘッドフォンなどを用いて気軽に視聴するような場合には、 BCCパラメータを用いずに、ダウンミクス信号だけを復号化すればよぐ従来の圧縮方式では実現できない、簡単且つ低演算量での高音質な再生が可能となる。

特許文献 1 :US2003Z0236583A1号公報（対応日本国出願、特開 2004— 78183号公報）

発明の開示

発明が解決しょうとする課題

[0007] し力しながら、特許文献 1では、該一つ或いは複数のダウン混合されたスペクトル成分に対して一つ或いは複数の聴覚空間パラメータを生成するといつた記載や、該ーつ或いは複数の聴覚空間パラメータがーつ或いは複数のチャンネル間レベル差とチヤンネル間時間差を含むと、つた記載があるだけで、そのような情報 (補助情報)を具体的にどのように量子化し、圧縮するかと、うことは開示されてヽな、。

[0008] 従って、補助情報の具体的な作成技術の開発が要望されている。

[0009] 本発明は、このような従来の問題点に鑑みてなされたものであって、混合信号だけを復号化することができ、しかも混合信号を分離するのに必要な補助情報を具体的に作成することができるオーディオエンコーダを提供することを目的とする。

課題を解決するための手段

[0010] 上記目的を達成するために、本発明に係るオーディオエンコーダにおいては、 Nチヤンネル (N > 1)のオーディオ信号を圧縮符号ィ匕するオーディオエンコーダであって、前記オーディオ信号を混合することにより得られた混合信号を、符号化する混合信号符号ィ匕手段と、前記混合信号符号ィ匕手段により符号化された混合信号カゝら前記 N チャンネルのオーディオ信号に復号ィ匕するために必要な補助情報を生成する補助情報生成手段とを含み、前記補助情報生成手段は、前記オーディオ信号を周波数領域の信号にそれぞれ変換する変換手段と、前記周波数領域の信号の周波数帯域を複数に分割する分割手段と、前記周波数領域の信号間の相違の度合!ゝを表す位相差情報とゲイン比情報とを検出する検出手段と、前記検出手段により検出された位相差情報とゲイン比情報とを、対応する周波数帯域毎に量子化する量子化手段とを備えることを特徴とする。

[0011] なお、本発明は、このようなオーディオエンコーダとして実現することができるだけでなぐこのようなオーディオエンコーダが備える特徴的な手段をステップとする符号ィ匕方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。また、このようなオーディオエンコーダが備える特徴的な手段を一体ィ匕した LSIとして構成することもできる。そして、そのようなプログラムは、 C D— ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。

発明の効果

[0012] 以上の説明から明らかなように、本発明に係るオーディオエンコーダによれば、混合信号だけを復号ィ匕することができ、しかも混合信号を分離するのに必要な補助情報を具体的に作成することができるという効果が奏される。

[0013] よって、本発明により、簡易且つ高品位の再生が可能となり、携帯電話機等のモバィル機器での簡易な音楽再生や、 AV機器での本格的な音楽再生が普及してきた今日における本願発明の実用的価値は極めて高い。

図面の簡単な説明

[0014] [図 1]図 1は、本発明に係るオーディオエンコーダが適用される、オーディオ信号符号ィ匕'復号ィ匕システムの全体構成を示すブロック図である。

[図 2]図 2は、 2チャンネルのオーディオ信号と、混合信号と、ゲイン比と、位相差との周波数軸上における関係を示す図である。

[図 3]図 3は、オーディオエンコーダ 10から出力されるビットストリームのフォーマット構成を示す図である。

[図 4]図 4は、図 1に示される補助情報生成部の詳細な構成例を示すブロック図である。 [図 5]図 5は、量子化精度設定テーブル 124の一例を示す図である。

[図 6]図 6は、従来技術と本願発明とを対比して説明するための図である。特に図 6(a) は、従来技術における量子化精度を示す図であり、図 6(b)は、本願発明における量子化精度を示す図である。

[図 7]図 7は、本実施の形態 2における補助情報生成部の他の詳細な構成例を示すブロック図である。

[図 8]図 8は、本実施の形態 3における補助情報生成部のさらに他の詳細な構成例を示すブロック図である。

[図 9]図 9は、ゲイン比情報に関する周波数分割テーブル 1271の一例を示す図である。

[図 10]図 10は、位相差情報に関する周波数分割テーブル 1272の一例を示す図である。

[図 11]図 11は、ゲイン比情報の量子化精度と、位相差情報の量子化精度とを別々に設定した量子化精度テーブル 1281の一例を示す図である。

[図 12]図 12は、低ビットレートモードでの動作時のゲイン比情報に関する周波数分割テーブルの一例を示す図である。

[図 13]図 13は、低ビットレートモードでの動作時の位相差情報に関する周波数分割テーブルの一例を示す図である。

[図 14]図 14は、本願発明の特徴を説明するための図である。特に図 14 (a) ,図 14 (b )は、高ビットレート時および低ビットレート時における量子化精度を比較して示す図であり、図 14 (c) ,図 14 (d)は、位相差情報およびゲイン比情報における量子化精度を比較して示す図である。

符号の説明

10 オーディオエンコーダ

11 混合信号符号化部

12 補助情報生成部

13 フォーマッタ

121 第 1の変換部 122 第 2の変換部

123 検出部

124 量子化精度設定テーブル

125 量子化部

126 圧縮部

127a 第 1の分割部

127b 第 2の分割部

127c 第 3の分割部

127d 第 4の分割部

128a 第 1の量子化部

128b 第 2の量子化部

1271 周波数分割テーブル

1272 周波数分割テーブル

1281 量子化精度テーブル

発明を実施するための最良の形態

[0016] 以下、本発明に係るオーディオエンコーダが適用される、オーディオ信号ェンコ一ド ·デコードシステムにつ、て説明する。

[0017] (実施の形態 1)

図 1は、本発明に係るオーディオエンコーダを用いて構成される、オーディオ信号エンコード ·デコードシステムの全体構成を示すブロック図である。

[0018] 図 1に示されるように、オーディオ信号エンコード 'デコードシステム 1は、 Nチャンネル (N> 1)のオーディオ信号を圧縮符号ィ匕するオーディオエンコーダ 10と、オーディォエンコーダ 10によって圧縮符号ィ匕されたオーディオ信号を復号ィ匕するオーディオデコーダ 20とから構成される。なお、ここでは、説明の便宜のため、 2チャンネルのォ一ディォ信号をエンコードする場合が図示されている。

[0019] オーディオエンコーダ 10は、 2チャンネルの入力オーディオ信号を混合することにより得られた混合信号を、符号化する混合信号符号化部 11と、混合信号符号化部 1 1により符号ィ匕された混合信号カゝら Nチャンネルのオーディオ信号に復号ィ匕するために必要な補助情報 (レベル比、位相差)を生成する補助情報生成部 12と、混合信号符号化部 11により符号化された混合信号と、補助情報生成部 12により生成された補助情報とを所定のフレーム毎に連結し、ビットストリームを生成し、生成したビットストリームをオーディオデコーダ 20に出力するフォーマッタ 13とを備える。

[0020] 例えば、 2チャンネルの入力オーディオ信号が図 2に示される 2つのベクトルである場合、混合信号符号化部 11は、混合信号として符号 Xで示されるベクトルに合成する。なお、図 2において、入力オーディオ信号の一方は、その絶対値が 1に正規ィ匕されており、他方はレベル比 Dに正規ィ匕されている。補助情報生成部 12は、 2チャンネルの入力オーディオ信号のレベル比 Dと、位相差 Θとを検出し、これを対応する帯域毎に量子化する。なお、補助情報生成部 12の構成の詳細については、後述する。フォーマッタ 13は、混合信号と、補助情報とを所定のフレーム毎に連結し、ビットストリームを生成する。

[0021] 図 3は、上記ビットストリームのフォーマット構成を示す図である。なお、図 3では、 1 フレーム分のみ例示されて、る。

[0022] 本ビットストリームには、所定の時間間隔で設けられるフレーム毎に、前述した符号化された混合信号を格納する領域 Oと、補助情報を格納する領域 βとが、この順序で、設けられている。

[0023] 図 3において、領域 α , にそれぞれ第 1フレームに関する対応データが格納され、第 2フレームについても同様の構成が繰り返される。

[0024] 領域 αには、例えば 2チャンネルの信号をダウンミックスした混合信号を MPEG規格 AAC方式で圧縮符号化し、符号化された混合信号が格納されて!、るものとする。ここでは、信号をベクトル合成する処理をダウンミックスと!/、う。

[0025] 領域 βには、 2チャンネルのオーディオ信号間のゲイン比 Dを表す値と、 2チャンネルのオーディオ信号間の位相差 Θを表す値を含む補助情報が格納されている。ここで注意するべきことは、前記位相差 Θを表す値は、必ずしも位相差 Θを直接的に符号ィ匕したものである必要はなぐ例えば、 cos Θのような値を符号ィ匕したデータでもよい。その場合、 cos Θの値によって前記位相差 Θを 0°から 180°の範囲で表すことができる。 [0026] 図 1に戻り、オーディオデコーダ 20は、オーディオエンコーダ 10から受信したビットストリームから、符号化された混合信号と補助情報とを、フレーム毎に分離するデフォ一マッタ 21と、デフォーマッタ 21により分離された符号化された混合信号を復号化する混合信号復号化部 22と、混合されたオーディオ信号と、 Nチャンネルのオーディオ信号との何れかを選択的に出力する出力選択部 23とを備える。出力選択部 23は、出力先選択スィッチ 231と、チャンネル拡張復号ィ匕部 232とを備える。

[0027] オーディオデコーダ 20が携帯電話機のようなモノくィル機器であり、ヘッドフォンで手軽に再生するような場合には、出力先選択スィッチ 231により、混合信号復号化部 22によって復号化された混合信号がそのまま出力される。

[0028] これに対して、 AV機器などにより本格的に再生するような場合には、出力先選択スイッチ 231により、混合信号復号化部 22によって復号化された混合信号がチャンネル拡張復号ィ匕部 232に出力される。チャンネル拡張復号ィ匕部 232は、補助情報生成部 12と逆の処理、つまり、逆量子化を行い、レベル比および位相差を復号ィ匕した後、周波数軸上において、出力先選択スィッチ 231から入力の対して、図 2と逆の処理、つまり対角線が混合信号に対応し、頂角が位相差 Θとなる菱形を求めることにより、 2つのチャンネルのオーディオ信号に分離し、分離されたオーディオ信号を周波数軸力も時間軸に変換することにより、臨場感の増した音楽を高品質で再生する。

[0029] 以下本発明の実施の形態 1における補助情報生成部について図面を参照しながら説明する。

[0030] 図 4は、図 1に示される補助情報生成部の詳細な構成例を示すブロック図である。

図 4に示されるように、補助情報生成部 12aは、第 1の変換部 121と、第 2の変換部

122と、検出部 123と、量子化部 125と、量子化精度設定テーブル 124とを備える。

[0031] 第 1の変換部 121は、第 1の入力オーディオ信号を周波数帯域信号に変換する。

[0032] 第 2の変換部 122は、第 2の入力オーディオ信号を周波数帯域信号に変換する。

[0033] 検出部 123は、第 1の入力オーディオ信号と第 2の入力オーディオ信号との対応する周波数帯域信号間の相違の度合いを検出する。

[0034] 量子化精度設定テーブル 124は、量子化部 125での量子化の精度を、各周波数帯域毎に設定している。 [0035] 量子化部 125は、検出された周波数帯域毎の相違の度合いを量子化する。

[0036] 以上のように構成された補助情報生成部 12aの動作について以下説明する。

[0037] まず、第 1の変換部 121は、第 1の入力オーディオ信号を複数の周波数帯域信号に変換する。これは、例えば、フーリエ変換ゃコサイン変換などを用いて、入力のォ一ディォ信号を周波数スペクトル信号に変換し、何本かのスペクトル信号をまとめて所定の周波数帯域信号を構成するような方法でよい。例えば、入力のオーディオ信号を 1024本の周波数スペクトル信号に変換し、最も低、周波数力も 4本の周波数スベクトル信号をまとめて第 1の周波数帯域信号とし、その次の 4本の周波数スペクトル信号をまとめて第 2の周波数帯域信号とするなどと、う方法でょ、。ここで周波数が高域に行けば行くほど、多くの本数の周波数スペクトル信号をまとめて周波数帯域信号にするようにしてもよい。或いは、 QMFフィルタバンクなどを用いて周波数帯域信号を求めてもよい。

[0038] 次に、第 2の変換部 122は、第 2の入力オーディオ信号を複数の周波数帯域信号に変換する。この方法は、上記第 1の変換部 121における方法と同じ方法である。

[0039] 次に、検出部 123は、第 1の入力オーディオ信号と第 2の入力オーディオ信号との対応する周波数帯域信号間の相違の度合いを検出する。例えば、対応する周波数帯域信号間のレベル差や、位相差を検出する。

[0040] レベル差を検出する方法は、対応する帯域毎の振幅の最大値どうしを比較する方法や、エネルギーレベルを比較する方法などがある。

[0041] 位相差を検出する方法は、フーリエ級数の実数値と虚数値とから位相角と求める方法や、対応する帯域信号の相関値から求める方法がある。すなわち相関値を C (ひま

± 1. 0の範囲内）としたとき、位相角は π * (1— C) Z2として求めることができる。

[0042] 最後に、量子化部 125で、検出された周波数帯域毎の相違の度合いを量子化する

。ここで、各帯域毎にどれくらいの精度で量子化するかは、予め、量子化精度設定テ一ブル 124によって設定されている。

[0043] 図 5は、量子化精度設定テーブル 124の一例を示す図である。

図 5にお、ては、一番低、帯域に対しては 6ビットの量子化ビット数が与えられてヽることが示されている。次の帯域に対しては 5ビット、その次の帯域に対しては 4ビット、というように帯域毎に量子化の精度が与えられており、量子化を行う最も高い周波数帯域に対しては 1ビットというように、低い帯域ほど、高精度な量子化を行うように設定されている。ここでは、勿論値は一例に過ぎず、他の値であってもよいことはいうまでもない。また、周波数帯域の順に量子化の精度を変えるのではなぐ聴覚の感度特性に応じて量子化の精度を変えるようにしてもょ、ことは、うまでもな、。このように量子化部 125では、量子化精度設定テーブル 124で設定された量子化精度で各周波数帯域毎の信号を量子化する。

[0044] 上記においては、説明の簡単化のために、周波数帯域毎の量子化の精度はテーブルによって予め設定されるとした力必ずしもその必要がな、ことは、うまでもなヽ。つまり、入力信号に応じて、当該周波数帯域の量子化の粗さ (Coarse)を適宜設定し、当該量子化の粗さを示す情報も符号ィ匕するという方法でもよい。その場合、粗さを示す情報の符号ィ匕信号のサイズを小さくするために、量子化の粗さは、 2段階で表すことが適切である。

[0045] 以上のように本実施の形態 1によれば、補助情報生成部 12aは、 Nチャンネル (N

> 1)のオーディオ信号をそれぞれ複数の周波数帯域信号に変換する第 1の変換部 121、第 2の変換部 122、 Nチャンネルのオーディオ信号間の、対応する周波数帯域信号の相違の度合いを検出する検出部 123と、検出された周波数帯域毎の相違の度合いを量子化する量子化部 125とを備え、量子化部 125での量子化の精度を、各周波数帯域毎に設定することによって、低いビットレートでし力も高音質にオーディオ信号を符号ィ匕できることとなる。

[0046] ところで、既に広く用いられている圧縮方式においても、チャンネル間の位相差や、レベル差を符号ィ匕する技術を部分的に取り入れているものもある。例えば前述の AA

C方式（ISOZIEC13818— 7)では、 Intensity Stereoといわれる技術が搭載されている。このためこの技術を用いることも考えられる。

[0047] この MPEG方式 AAC規格（ISOZIEC13818— 7)における、 Intensity Stereo では、チャンネル間のレベル差力複数の周波数帯域毎に、 256値の量子化精度で量子化され、さら〖こ、隣接する周波数帯域間の差分値をハフマン符号化することで圧縮されることが開示されて、る。 [0048] し力しながら、上記のような方法では、全ての周波数帯域毎に 256値という高精度な量子化を行っているので、無駄な情報量が費やされている。なぜならば、人間の聴覚特性は、周波数帯域毎に感度が異なっているので、そのことを考慮に入れれば、精密な量子化精度で量子化を行うべき帯域と大雑把な精度で量子化を行っても影響の無い帯域を個々に制御するべきであるのに、一律に 256値という高精度な量子化を行うことは無駄な情報量を費やすことになる。

[0049] また、 MPEG方式 AAC規格（ISOZIEC13818— 7)における、 Intensity Stere oでは、チャンネル間の位相差力複数の周波数帯域毎に、 2値の量子化精度での量子化であり、結果として、位相差が無いか、位相差が 180度力のどちらかしか表現できず、これも、聴覚の感度に応じた制御ができないことになる。

[0050] すなわち、従来技術においては、図 6 (a)に示されるように、全周波数バンドに対し、同じ量子化精度 (例えば位相角の量子化に例えば 32値)で量子化している。

[0051] これに対して、本発明では、図 6 (b)に示されるように、例えば、低域では 32値、その上の帯域では 16値、さらにその上の帯域では 13値、高域では 11値といったように、帯域に応じて、レベル比および位相差の量子化精度を変更できるようにしている。

[0052] 従って、チャンネル間位相差情報やレベル差情報を、周波数帯域毎に異なる精度で量子化することで、高音質でしカゝもビットレートを低くしつつ、オーディオ信号を符号ィ匕できることとなる。

[0053] なお、高域などにぉ、て、隣接帯域を 1まとめにして (グルーピング)符号化、例えば 11値 X I I値の 120値を 7ビットのストライドで符号化、つまり 1帯域当り 3. 5ビットで量子化してもよ、。これによつても低ビットィ匕を図ることができる。

[0054] (実施の形態 2)

以下本発明の実施の形態 2における補助情報生成部について図面を参照しながら説明する。

[0055] 図 7は、本実施の形態 2における補助情報生成部の他の詳細な構成例を示すプロック図である。なお、図 4に示される補助情報生成部 12aの構成部分と対応する部分に同じ番号を付し、その説明を省略する。

[0056] 図 7に示されるように、補助情報生成部 12bは、補助情報生成部 12の構成要素、すなわち第 1の変換部 121、第 2の変換部 122、検出部 123、量子化精度設定テーブル 124および量子化部 125に加えて、さらに圧縮部 126を備えて構成される。

[0057] つまり、実施の形態 1と異なるのは、量子化部 125で量子化された周波数帯域毎の相違の度合いを量子化した量子化値を受けて、当該複数の量子化値をさらに可逆圧縮する圧縮部 126を備えていることである。ここで、圧縮部 126による可逆圧縮とは、圧縮による劣化なく完全に元に復号されるロスレス圧縮方法である。

[0058] この可逆圧縮として、例えば、各量子化値をハフマン符号によって圧縮する方法などがある。

[0059] 或いは、差分符号の方法をとつてもよい。すなわち、最も低い周波数帯域に対応する量子化値はそのままにし、以降隣接する周波数帯域に対応する量子化値は差分信号を計算しそれを圧縮信号として用いるようにする。これは、隣接する周波数帯域間では、量子化値に大きな差が無いという性質を利用した可逆圧縮である。さらに、その差分信号をハフマン符号によってさらに圧縮してもよい。

[0060] 或いは、隣接する周波数帯域間で量子化値が等、場合は、連続して何回等、かを表すランレングス符号ィ匕することによってビット数を削減してもよい。さらに、そのランレングス符号をノヽフマン符号によってさらに圧縮してもよい。

[0061] 或いは、 A値で量子化された隣接する B個の量子化値を B桁の A進数で表現した値を符号ィ匕することによって、ビット数をさらに削減するようにしてもよい。

[0062] 例えば、 5値で量子化された隣接する 3個の量子化値を 3桁の 5進数で表現した場合、取りうる値の最大値は 124となる。これは、 3個の量子化値が全て最大値の 4であつた場合 4 * 25+4 * 5+4= 124である力もである。一方、 124は、 7桁の 2進数で表現できるので、 5値で量子化された隣接する 3個の量子化値は、 7ビットで圧縮できることになる。そもそも 5値を表現するためには 3ビットの情報量が必要なので、 3つで 9ビット必要となる。つまりこの場合、 3つで 2ビット情報が削減できることになる。

[0063] 具体的には、検出部 123は、入力のオーディオ信号間の、対応する周波数信号の位相差を検出し、量子化部 125は、検出された位相差を 5値で量子化し、圧縮部 12 6は、そのようにして量子化された少なくとも 2個の量子化値をまとめて圧縮するようにするなどすれば情報量が圧縮できる。ここで、量子化部 125は、必ずしも位相差を等間隔で 5等分した量子化レベルで量子化する必要はない。聴覚の特性に応じて、位相差 90° 近傍は粗ぐ 0° 近傍は細力べ量子化する方がよい。

[0064] 同様に、検出部 123は、入力のオーディオ信号間の、対応する周波数信号の位相差を検出し、量子化部 125は、検出された位相差を 3値で量子化し、圧縮部 126は、そのようにして量子化された少なくとも 3個の量子化値をまとめて圧縮するようにするなどすれば情報量が圧縮できる。ここで、量子化部 125は、必ずしも位相差を等間隔で 3等分する必要はなぐ聴覚の特性に応じて、位相差 90° 近傍は粗ぐ 0° 近傍は細力べ量子化する方がよい。

[0065] また同様に、検出部 123は、入力のオーディオ信号間の、対応する周波数信号の位相差を検出し、量子化部 125は、検出された位相差を 11値で量子化し、圧縮部 1 26は、そのようにして量子化された少なくとも 2個の量子化値をまとめて圧縮するようにするなどすれば情報量が圧縮できる。ここで、量子化部 125は、必ずしも位相差を等間隔で 11等分する必要はなぐ聴覚の特性に応じて、位相差 90° 近傍は粗ぐ 0 ° 近傍は細力べ量子化する方がよい。

[0066] 以上のように本実施の形態 2によれば、圧縮部 126により、量子化された複数の量子化値を可逆圧縮することによって、より低いビットレートでし力も高音質にオーディォ信号を符号ィ匕できることとなる。

[0067] (実施の形態 3)

以下本発明の実施の形態 3における補助情報生成部について図面を参照しながら説明する。

[0068] 図 8は、本実施の形態 3における補助情報生成部のさらに他の詳細な構成例を示すブロック図である。なお、図 4に示される補助情報生成部 12aの構成部分と対応する部分に同じ番号を付し、その説明を省略する。

[0069] 図 8に示されるように、補助情報生成部 12cは、第 1の変換部 121と、第 2の変換部 122と、第 1の分割部 127aと、第 2の分割部 127bと、第 3の分割部 127cと、第 4の分割部 127dと、第 1の量子化部 128aと、第 2の量子化部 128bとを備える。

[0070] 第 1の変換部 121は、第 1の入力オーディオ信号を周波数領域の信号に変換する [0071] 第 2の変換部 122は、第 2の入力オーディオ信号を周波数領域の信号に変換する

[0072] 第 1の分割部 127aは、ゲイン比情報に関する周波数分割テーブル 1271を有し、第 1の変換部 121で生成された周波数領域の信号を複数の周波数帯域毎に分割する。

[0073] 第 2の分割部 127bは、位相差情報に関する周波数分割テーブル 1272を有し、第 1の変換部 121で生成された周波数領域の信号を第 1の分割部 127aとは異なる分割の仕方で分割する。

[0074] 第 3の分割部 127cは、ゲイン比情報に関する周波数分割テーブル 1271を有し、第 2の変換部 122で生成された周波数領域の信号を第 1の分割部 127aと同じ分割の仕方で分割する。

[0075] 第 4の分割部 127dは、位相差情報に関する周波数分割テーブル 1272を有し、第 2の変換部 122で生成された周波数領域の信号を第 2の分割部 127bと同じ分割の仕方で分割する。

[0076] 第 1の量子化部 128aは、ゲイン比情報の量子化精度と、位相差情報の量子化精度とを別々に設定した量子化精度テーブル 1281を有し、第 1の分割部 127aで分割された周波数帯域信号と、第 3の分割部 127cで分割された周波数帯域信号との、それぞれ対応する周波数帯域毎のゲイン比を検出し、量子化する。

[0077] 第 2の量子化部 128bは、量子化精度テーブル 1281を有し、第 2の分割部 127bで分割された周波数帯域信号と第 4の分割部 127dで分割された周波数帯域信号との、それぞれ対応する周波数帯域毎の位相差を検出し、量子化する。

[0078] 以上のように構成された補助情報生成部 12cの動作について以下説明する。

[0079] まず、第 1の変換部 121で第 1の入力オーディオ信号を周波数領域の信号に変換する。これは、例えば、フーリエ変換などを用いて、入力のオーディオ信号を周波数スペクトル信号に変換する。本実施の形態 3では 1024本の複素フーリエ級数に変換するものとする。

[0080] 一方、第 2の変換部 122では第 2の入力オーディオ信号を周波数領域の信号に変換する。この方法は、第 1の変換部 121における方法と同じ方法である。 [0081] 次に、第 1の分割部 127aで、第 1の変換部 121で生成された周波数領域の信号を複数の周波数帯域毎に分割する。この時、分割の仕方は、図 9のテーブルに従う。

[0082] 図 9は、周波数分割テーブル 1271の詳細構成を示す図である。

図 9において、左の列は帯域の番号を示しており、中央の列は当該帯域番号の周波数帯域の開始周波数を示しており、右の列は当該帯域番号の周波数帯域の終端周波数を示している。すなわち、第 1の分割部 127aでは、第 1の変換部 121で生成された周波数領域の信号（1024本の複素フーリエ級数)を図 9のテーブルに従って、それぞれ示されている周波数帯域毎に分割する。

[0083] 同様に、第 2の分割部 127bで、第 1の変換部 121で生成された周波数領域の信号を複数の周波数帯域毎に分割する。この時、分割の仕方は、図 10のテーブルに従う

[0084] 図 10は、周波数分割テーブル 1272の詳細構成を示す図である。

図 10の意味するところは図 9と同様であるが、具体的な帯域の割り当て方が異なつている。本実施の形態 3では、一例として、高域側の帯域の分割の幅を、図 9に示したものより粗くしている。このような図 10に示されたテーブルに従って、第 2の分割部 127bでは、第 1の変換部 121で生成された周波数領域の信号（1024本の複素フーリエ級数)をそれぞれ示されている周波数帯域毎に分割する。本実施の形態 3では、一例として、高域側の帯域の分割の幅を、図 9に示したものより粗くしている力必ずしもそうでなくてもよぐ聴覚の感度の低い帯域幅を選択的に粗くしてもよい。

[0085] 第 3の分割部 127cは、第 2の変換部 122で生成された周波数領域の信号を複数の周波数帯域毎に分割するが、その動作は、第 1の分割部 127aと同様である。

[0086] 第 4の分割部 127dは、第 2の変換部 122で生成された周波数領域の信号を複数の周波数帯域毎に分割するが、その動作は、第 2の分割部 127bと同様である。

[0087] 次に、第 1の量子化部 128aでは、第 1の分割部 127aで分割された周波数帯域信号と第 3の分割部 127cで分割された周波数帯域信号との、それぞれ対応する周波数帯域毎のゲイン比を検出し、量子化する。

[0088] ここでゲイン比を検出する方法は、対応する帯域毎の振幅の最大値どうしを比較する方法や、エネルギーレベルを比較する方法など、どのような方法でもよぐそのようにして検出されたゲイン比を第 1の量子化部 128aで量子化する。

[0089] 次に、第 2の量子化部 128bでは、第 2の分割部 127bで分割された周波数帯域信号と第 4の分割部 127dで分割された周波数帯域信号との、それぞれ対応する周波数帯域毎の位相差を検出し、量子化する。

[0090] ここで、位相差を検出する方法は、当該周波数帯域内の、フーリエ級数の、実数値と虚数値の代表値力も位相角と求める方法など、どのような方法でもよぐそのようにして検出された位相差を第 2の量子化部 128bで量子化する。

[0091] ここで注意すべきことは、第 1の分割部 127aと、第 3の分割部 127cとは、共に図 9 のテーブルに示された分割の仕方で、それぞれ、第 1の入力オーディオ信号の周波数信号と第 2の入力オーディオ信号の周波数信号とを分割してヽるので、比較的高域まで細か!/ヽ周波数毎の分割が行われて!/ヽる。

[0092] これに対して、第 2の分割部 127bと第 4の分割部 127dとは、共に図 10のテーブルに示された分割の仕方で、それぞれ、第 1の入力オーディオ信号の周波数信号と第

2の入力オーディオ信号の周波数信号とを分割して、るので、高域では粗く周波数の分割が行われて、ることである。

[0093] この結果として、ゲイン比情報は、比較的高域まで細か!/、周波数毎検出され量子ィ匕されるが、位相差情報については、高域側では粗く検出され量子化されることになる。これは、高域信号については、位相情報を正確に検知できないという聴覚の特性を考慮したものであり、これによつて、聴覚的な音質劣化を少なく留めながら、情報量の削減を行うことができることになる。

[0094] 上記においては、説明の簡単化のために、周波数信号の分割の仕方はテーブルによって予め設定されるとした力必ずしもその必要がないことはいうまでもない。つまり、入力信号に応じて、周波数信号の分割の仕方を適宜設定し、当該分割の仕方を示す情報も符号化するとゝぅ方法でもよヽ。

[0095] その場合、上記分割の仕方は、以下のように行ってもよい。すなわち、分割されることによって得られるそれぞれのグループ (Group)が有する帯域信号の数を低域の周波数帯域力順次所望の幅（Stride)毎にまとめることによって行う、という方法である [0096] 最後に、このようにして量子化されたゲイン比情報と位相差情報とは、所定のルールでフォーマットされビットストリームが形成される力それはどのような方法であってちょい。

[0097] 以上のように本実施の形態 3によれば、位相差情報をゲイン比情報より粗い周波数分割で量子化することで、聴覚的な音質劣化を少なくしながら、情報量の削減を行うことがでさること〖こなる。

[0098] なお、本実施の形態 3では、周波数分割を粗くすることによって、位相差情報の情報量を削減したが、位相差情報の情報量を削減する方法としては、他にも例えば、個々の周波数帯域毎の位相差情報の量子化精度をゲイン比情報の量子化精度よりも粗くするなどの方法もある。

[0099] 例えば、図 11に示すように、位相差情報の量子化精度をゲイン比情報の量子化精度より粗く設定するのである。これも位相差情報の聴覚上の知覚感度が、ゲイン比情報の聴覚上の知覚感度より鈍いという特性に基づいている。図 11においても、値は勿論一例に過ぎず、サンプリング周波数やビットレートに応じて適切に設定すればよいが、量子化に際しては、位相差情報に用いるビット数をゲイン比情報に用いるビット数より少なくすることによって、聴感上の音質劣化をできるだけ少なく留めながら高圧縮を実現できる。

[0100] また、本実施の形態 3では、ゲイン比情報に関する周波数の分割を図 9に基づいて行い、位相差情報に関する周波数の分割を図 10に基づいて行った力例えば、ゲイン比情報に関する周波数の分割を図 12に基づいて行い、位相差情報に関する周波数の分割を図 13に基づ、て行ってもょ、。

[0101] 図 9と図 12とを比較すれば、図 12の方が図 9より周波数の分割が粗くなつており、図 10と図 13とを比較すれば、図 13の方が図 10より周波数の分割が粗くなつて、る。従って、分割の仕方を決めるテーブルとして、図 12、図 13に示したものを選択すると、量子化した際の情報量の削減が可能となる。従って、複数のビットレートの動作モードを備えるエンコーダの場合、低いビットレートでの動作時は、周波数の分割の仕方を変えるようにすればよいこととなる。この場合には、帯域番号を合わせて量子化精度テーブル 1281を用いてもよぐこの量子化精度テーブル 1281よりも低ビットレート用の量子化精度テーブルを用意して用いてもょ、。

[0102] ここで、本発明の本願発明の特徴を説明する。

[0103] 図 14 (a) .図 14 (b)に示されるように、ビットレートビットレートに応じて、帯域の分け方を変更するようにしている。これにより、音質劣化を少なくしつつ、低ビットレートイ匕を図ることができる。

[0104] また、図 14 (c) .図 14 (d)に示されるように、位相差情報は、ゲイン差情報より粗いバンドの切り方で符号ィ匕するようにしている。また、位相差情報は、ゲイン差情報より ¾ ヽ量子化精度で量子化するようにして!/、る。

[0105] 従って、これにより、音質劣化を少なくしつつ、低ビットレートイ匕を図ることができる。

[0106] 勿論ここでも説明の簡単ィ匕のために、周波数信号の分割の仕方が疎なものと密なものとが存在する例として、テーブルによって予め分割の仕方が設定されるとした力必ずしもその必要がないことはいうまでもない。例えば、分割されることによって得られるそれぞれのグループ (Group)が有する帯域信号の数を低域の周波数帯域から順次所望の幅（Stride)毎にまとめるという方法において、上記 Strideの値を大とすることによって、分割の仕方が疎となるように設定し、上記 Strideの値を小とすることによって、分割の仕方が密となるように設定してもよ、。

[0107] また、上記実施の形態では 2チャンネルの入力オーディオ信号について説明した 1S それ以上の多チャンネルの入力オーディオ信号にっ、て適用してもよ、。

[0108] 例えば、 5. 1チャンネルのマルチチャンネル信号は、聴視者の前方正面 Center、前方右 FR、前方左 FL、後方右 BR、及び後方左 BLに配置される音源からの 5チヤンネルのオーディオ信号と、オーディオ信号の超低域を表す 0. 1チャンネルの信号 LFEとカゝら構成される。この場合、混合信号符号ィ匕部 11は、前方左 FLと、後方左 B Lと、前方正面 Centerと、 LFEとのオーディオ信号を 2つずつ混合していくことによりダウンミクス信号 DLを生成し、前方右 FRと、後方右 BRと、前方正面 Centerと、 LFE とのオーディオ信号を 2つずつ混合していくことによりダウンミクス信号 DRを生成すればよい。また、補助情報生成部 12は、ダウンミクス信号 DLについて、前方左 FLと、後方左 BLと、前方正面 Centerと、 LFEとのオーディオ信号を 2つずつ、レベル比および位相差を検出し、ダウンミクス信号 DRについて、前方右 FRと、後方右 BRと、前方正面 Centerと、 LFEとのオーディオ信号を 2つずつレベル比および位相差を検出すればよい。

産業上の利用可能性

本発明に係るオーディオエンコーダは、マルチチャンネル信号を符号ィ匕するォーディォエンコーダである力特にマルチマルチチャンネル間の位相差やレベル差を非常に少ないビット数で表現できるので、低ビットレートでの音楽放送サービスや、音楽配信サービスに用いられる機器および携帯電話機などのモパイル機器や、 AV機器など、その受信機器に適用するのに適している。

Claims

請求の範囲

[1] Nチャンネル (N > 1)のオーディオ信号を圧縮符号化するオーディオエンコーダであって、

前記オーディオ信号を混合することにより得られた混合信号を、符号化する混合信号符号化手段と、

前記混合信号符号ィ匕手段により符号化された混合信号カゝら前記 Nチャンネルのォ一ディォ信号に復号化するために必要な補助情報を生成する補助情報生成手段とを含み、

前記補助情報生成手段は、

前記オーディオ信号を周波数領域の信号にそれぞれ変換する変換手段と、前記周波数領域の信号の周波数帯域を複数に分割する分割手段と、

前記周波数領域の信号間の相違の度合いを表す位相差情報とゲイン比情報とを検出する検出手段と、

前記検出手段により検出された位相差情報とゲイン比情報とを、対応する周波数帯域毎に量子化する量子化手段と

を備えることを特徴とするオーディオエンコーダ。

[2] 前記分割手段は、前記位相差情報を量子化するための周波数帯域と、前記ゲイン比情報を量子化するための周波数帯域とを、異なる仕方で分割する

ことを特徴とする請求項 1記載のオーディオエンコーダ。

[3] 前記分割の仕方は、分割されることによって得られるそれぞれのグループ (Group) が有する帯域信号の数を、低域の周波数帯域から順次所望の幅 (Stride)毎にまとめることによって行う

ことを特徴とする請求項 2記載のオーディオエンコーダ

[4] 前記位相差情報を量子化するための周波数帯域を分割する仕方は、前記ゲイン比情報を量子化するための周波数帯域の分割の仕方よりも粗く分割する

ことを特徴とする請求項 3記載のオーディオエンコーダ。

[5] 前記補助情報生成手段は、さらに

周波数帯域の分割の仕方を規定する第 1のテーブルと、前記第 1のテーブルよりも粗い周波数帯域の分割の仕方を規定する第 2のテープノレとを備え、

前記分割手段は、前記第 1および第 2のテーブルを切り換えることで、周波数帯域の分割の仕方を適宜変更する

ことを特徴とする請求項 1記載のオーディオエンコーダ。

[6] 前記補助情報生成手段は、さらにビットレートを指定するビットレート指定手段を備え、

前記分割手段は、前記ビットレート指定手段で指定されたビットレートに応じて、周波数帯域の分割の仕方を変更する

ことを特徴とする請求項 5記載オーディオエンコーダ。

[7] 前記分割手段は、ビットレートが高い場合は、前記第 1のテーブルの規定に従って周波数帯域を分割し、ビットレートが低い場合は、前記第 2のテーブルの規定に従つて周波数帯域を分割する

ことを特徴とする請求項 6記載のオーディオエンコーダ。

[8] 前記量子化手段での量子化の精度は、各周波数帯域毎に設定される

ことを特徴とする請求項 1記載のオーディオエンコーダ。

[9] 前記量子化手段での量子化の精度は、低、周波数帯域に対する精度ほど細かく設定される

ことを特徴とする請求項 8記載のオーディオエンコーダ。

[10] 前記量子化手段での量子化の精度は、聴覚の感度特性応じて設定される

ことを特徴とする請求項 8記載のオーディオエンコーダ。

[11] 前記補助情報生成手段は、さらに前記量子化手段で量子化された複数の量子化値を可逆圧縮する圧縮手段を備える

ことを特徴とする請求項 8記載のオーディオエンコーダ。

[12] 前記圧縮手段は、隣接する周波数帯域の量子化値の差分を求めることでビット数を削減する

ことを特徴とする請求項 11記載のオーディオエンコーダ。

[13] 前記圧縮手段は、周波数帯域間の量子化値が等、場合は、連続して何回等しいかを表すランレングス符号ィ匕することによってビット数を削減する

ことを特徴とする請求項 11記載のオーディオエンコーダ。

[14] 前記圧縮手段は、可変長符号化処理を用いてビット数を削減する

ことを特徴とする請求項 11記載のオーディオエンコーダ。

[15] 前記量子化手段は、前記検出手段により検出された相違の度合いを A個のレベルを有する量子化値で量子化し、

前記圧縮手段は、前記量子化された B個の量子化値をまとめて圧縮することを特徴とする請求項 11記載のオーディオエンコーダ。

[16] 前記 Bの値は、前記 Aの値に応じて予め設定される

ことを特徴とする請求項 15記載のオーディオエンコーダ。

[17] 前記 Bの値は、 Aを 2進数で表現した時の桁数を Pとし、

B桁の A進数を 2進数で表現した時の桁数を Qとした時、 Qが P * Bより小さな値となるような値である

ことを特徴とする請求項 16記載のオーディオェンコーダ。

[18] 前記量子化手段は、前記位相差情報を前記ゲイン比情報より少な!、ビット数で量子化する

ことを特徴とする請求項 1記載のオーディオエンコーダ。

[19] Nチャンネル (N > 1)のオーディオ信号を圧縮符号ィ匕する符号ィ匕方法であって、前記オーディオ信号を混合することにより得られた混合信号を、符号化する混合信号符号化ステップと、

前記混合信号符号化ステップにより符号化された混合信号カゝら前記 Nチャンネルのオーディオ信号に復号化するために必要な補助情報を生成する補助情報生成ステツプとを含み、

前記補助情報生成ステップは、

前記オーディオ信号を周波数領域の信号にそれぞれ変換する変換ステップと、前記周波数領域の信号の周波数帯域を複数に分割する分割ステップと、前記周波数領域の信号間の相違の度合いを表す位相差情報とゲイン比情報とを検出する検出ステップと、前記検出ステップにより検出された位相差情報とゲイン比情報とを、対応する周波数帯域毎に量子化する量子化ステップと

を含むことを特徴とする符号化方法。

[20] 請求項 19に記載の符号ィ匕方法に含まれるステップをコンピュータに実行させるためのプログラム。

[21] Nチャンネル (N > 1)のオーディオ信号を圧縮符号化するオーディオエンコーダであって、

前記混合信号符号ィ匕手段により符号化された混合信号カゝら前記 Nチャンネルのォ一ディォ信号に復号化するために必要な補助情報を生成する補助情報生成手段とを一体的に含み、

前記補助情報生成手段は、

前記オーディオ信号を周波数領域の信号にそれぞれ変換する変換手段と、前記周波数領域の信号の周波数帯域を複数に分割する分割手段と、前記周波数領域の信号間の相違の度合いを表す位相差情報とゲイン比情報とを検出する検出手段と、

前記検出手段により検出された位相差情報とゲイン比情報とを、対応する周波数帯域毎に量子化する量子化手段とを備える

ことを特徴とする LSI。