WO2007029304A1

WO2007029304A1 - オーディオ符号化装置及びオーディオ符号化方法

Info

Publication number: WO2007029304A1
Application number: PCT/JP2005/016271
Authority: WO
Inventors: Yoshiteru Tsuchinaga; Masanao Suzuki; Miyuki Shirakawa; Takashi Makiuchi
Original assignee: Fujitsu Limited
Priority date: 2005-09-05
Filing date: 2005-09-05
Publication date: 2007-03-15
Also published as: JPWO2007029304A1; EP1933305B1; EP1933305A4; JP4454664B2; US20080154589A1; KR100979624B1; US7930185B2; EP1933305A1; KR20080032240A

Abstract

　プリエコー及びビット不足から生じる音質劣化を改善する。　音響分析部（１１）は、オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求める。符号化ビット数監視部（１２）は、オーディオ信号を符号化した際の符号化ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求める。フレーム分割数決定部（１３）は、知覚エントロピーと余剰ビット数との組み合わせにもとづいて、オーディオ信号の１フレームを、１からＮまでＮ分割するための分割数を決定する。直交変換部（１４）は、決定した分割数で１フレームを分割し、分割されたブロック長単位でオーディオ信号の直交変換を行って直交変換係数を求める。量子化部（１５）は、ブロック長単位で直交変換係数の量子化を行う。

Description

明細書

オーディオ符号化装置及びオーディオ符号化方法

技術分野

[0001] 本発明は、オーディオ符号化装置及びオーディオ符号化方法に関し、特に携帯電話やインターネット等の情報通信分野、テレビ等のディジタル放送分野、さらに MD- DVDのような AV機器によるオーディオ信号の蓄積'記録分野で使用される、オーディォ信号の符号化を行うオーディオ符号化装置及びオーディオ符号化方法に関する背景技術

[0002] 近年、インターネットやディジタル地上波放送等の通信分野、または DVDゃシリコンオーディオ等の AV機器の急速な普及に伴、、オーディオ信号を効率よく圧縮するオーディオ符号ィ匕技術に対する需要が高まって、る。

[0003] オーディオ符号化方式としては、適応変換符号化が主に用いられて!/ヽる。適応変換符号化は、人間の聴覚特性を利用して、冗長度の高い情報や聴感上問題のない音のデータを削減して、情報量を圧縮する符号ィ匕方式のことである。

[0004] 適応変換符号ィ匕方式の基本的な符号ィ匕処理は以下の流れで行われる。

•時間領域のオーディオ信号を周波数領域へ変換する。

•周波数軸上の信号を人間の聴覚の周波数分解能に対応する周波数帯域で区切る

•人間の聴覚特性を利用して、各周波数帯域で符号化に必要な最適な情報量を計算する。

•各周波数帯域に割り振られた情報量にしたがい、周波数軸上の信号を量子化する

[0005] 一方、適応変換符号化方式の中でも、 MPEG2 AAC (Moving Pictures Experts G roup-2 Advanced Audio Coding)は、地上波ディジタル放送にも採用されており、近年注目を浴びている符号化方式である。なお、 MPEG2 AAC (以下、単に AAC)は、 ISO/IEC (International Standardization Organization/ International Electro techni cal Commission:国際標準化機構 Z国際電気標準会議)で標準化された符号ィ匕方式であり、詳細は ISO/IEC 13818- 7の Part 7, "Advanced Audio Coding (AAC)に記載されている。

[0006] AACエンコーダでは、時間領域のアナログのオーディオ信号をサンプリングしてデイジタル値に変換し、ディジタル値を所定のサンプリング数に分割してフレームを生成する。

[0007] また、 1つのフレームは、 LONGブロック（1024サンプル）または SHORTブロック（12 8サンプル)の 2種類のブロック長が割り当てられ、オーディオ信号の性質に応じて、 L ONGまたは SHORTのブロックを適応的に切り替えて、ブロック毎に符号ィ匕が行われる

[0008] 図 8は LONGブロックと SHORTブロックの関係を示す図である。 1フレームは、 1024 個のサンプリング値力も構成される。 LONGブロックは、 1フレームの区間そのままであり、 SHORTブロックは、 1フレームを 8個に分割した 128個のサンプリング値からなる区間である。

[0009] したがって、フレームを符号化する場合、 LONGブロックを選択した場合には、 1フレーム単位で符号ィ匕処理を行うことになり、 SHORTブロックを選択した場合は、 1フレームの 1/8単位で符号ィ匕処理を行うことになる。

[0010] 図 9は従来の AACエンコーダの概略構成を示す図である。 AACエンコーダ 100は、音響分析部 101、ブロック長選択部 102、符号ィ匕部 103から構成される。

音響分析部 101は、入力信号を FFT(Fast Fourier Transform)分析により FFTスベクトルを求め、 FFTスペクトルから知覚エントロピーを求めて、ブロック長選択部 10 2へ送信する。知覚エントロピーとは、量子化するのに必要なビット数を表すパラメ一タである。

[0011] ブロック長選択部 102は、受信した知覚エントロピーがあら力じめ設定したしきい値

(定数)を超えれば SHORTブロックを選択し、知覚エントロピーがしきい値を越えなければ LONGブロックを選択する。

[0012] 符号ィ匕部 103は、ブロック長選択部 102で選択されたブロック長が LONGブロックならば、入力信号の該当フレームを LONGブロック単位で符号ィ匕し、選択されたブロック長が SHORTブロックならば、入力信号の該当フレームを SHORTブロック単位で符号化する。

[0013] 符号化処理では、 1フレームを LONGブロック単位または SHORTブロック単位で直交変換を行って直交変換係数を求め、直交変換係数を許容されたビット数の範囲内で周波数バンド毎に量子化し、量子化値力ビットストリームを生成して送信する。

[0014] ここで、入力信号の 1フレームが、振幅や周波数がほとんど変化しない定常的な信号 (波形としては正弦波に近いもの)の場合は、信号変化量が小さく情報量も大きくはないので、 1フレームまとめて、すなわち LONGブロック単位で符号化することが望まし、 (振幅や周波数に大きな変化がな、区間が続、て、る場合は、その区間をまとめて符号ィ匕した方が効率がょ、)。

[0015] なお、定常区間では、符号ィ匕時の量子化ビット数が大きくないので、定常信号の占める割合が大きいフレームの知覚エントロピー（量子化に必要なビット数を表すパラメータ）は、しきい値を下回ることになつて、 LONGブロックが選択されることになる。

[0016] これに対して、フレーム内に振幅または周波数が急峻に変化する信号 (以下、ァタック音とも呼ぶ）が存在する場合に、そのフレームを LONGブロックで符号ィ匕すると、元の入力信号にはな力つたプリエコー (pre-echo)と呼ばれる雑音が発生し、音質劣化の原因となる。

[0017] 以下、図 10〜図 12を用いてプリエコーについて説明する。なお、図 10〜図 12では、横軸を時間、縦軸を振幅とする。図 10はアタック音を含む符号ィ匕前の入力信号を示す図である。入力信号のフレーム flには、アタック音と、定常信号とが含まれている。

[0018] 図 11はプリエコーを示す図である。フレーム flを LONGブロックで符号化したときの復号音 (フレーム f la)を示している。フレーム flは、アタック音と定常信号とが存在して、成分が大きく異なる信号が含まれている。このようなフレーム flを LONGブロックで符号ィ匕して、周波数軸上で量子化すると、図 11に示すように、アタック音力生じた誤差量の大き、量子化誤差（図中の細力、歪）が、フレーム fl全体に乗る（重畳する）こと〖こなる。

[0019] この場合、アタック音の手前に重畳した量子化誤差は、プリエコーと呼ばれる雑音信号となり、ユーザにとって耳障りなものとなって、音質劣化を引き起こす。また、ァタック音そのものに重畳した量子化誤差は、アタック音自身に埋もれてしまうため、聴覚上影響を与えることはほとんどない。

[0020] さらに、アタック音の後段にも量子化誤差は重畳するので、これも雑音信号 (ポストエコー (post-echo)と呼ばれる）となるが、大きな音の直後に少しの長さの雑音信号が生じても人間の聴覚では感じとることができないので、通常はポストエコーも問題視されることはない。

[0021] したがって、主観的に聴覚に影響を与えて、音質劣化を引き起こす問題となるのはプリエコーであり、オーディオ符号ィ匕処理においては、このプリエコーを抑制することが重要となる。

[0022] 図 12は SHORTブロックで符号化したときの復号音を示す図である。プリエコーを抑制するには、フレーム flを SHORTブロックで符号化すればよい。 SHORTブロックで符号化すれば、アタック音が含まれるブロック bで生じた量子化誤差は、ブロック b内で閉じたものとなり、他のブロックに影響を与えないからである。

[0023] したがって、アタック音のような急峻な信号がフレーム内に存在する場合には、 SHO RTブロックを選択し (アタック音では、符号ィ匕時の量子化ビット数が大きいので、ァタック音が含まれるフレームの知覚エントロピ一は、しきい値を上回ることになつて、 SH ORTブロックが選択される）、 SHORTブロック単位で符号化を行うことでプリエコーを抑制している。

[0024] 従来技術として、プリエコーを抑制したビットストリームを作成するオーディオ符号ィ匕技術が提案されている (例えば、特許文献 1)。

特許文献 1：特開 2005 - 3835号公報 (段落番号〔0028〕〜〔0045〕，第 1図）発明の開示

発明が解決しょうとする課題

[0025] AACエンコーダのようなオーディオ符号化装置では、通常、量子化ビットの増減を吸収して、擬似的な可変ビットレート制御を行うビットリザーバ機能が設けられている。図 13はビットリザーバの動作概念を示す図である。図中のグラフ G1は、横軸がフレーム、縦軸が量子化ビット数であり、各フレームで使用した量子化ビット数を表している。また、グラフ G2は、横軸がフレーム、縦軸がリザーブビット数であり、各フレームが量子化された際に、そのときビットリザーバに存在する余剰ビット数を表している。

[0026] ここで、平均量子化ビット数が 100ビットとする。平均量子化ビット数は、余剰ビット数を決める指標であって、伝送ビットレートに応じて算出されるものである。

フレームの量子化時に、必要な量子化ビット数が平均量子化ビット数を下回る場合は、下回った分のビット数は余剰ビット数として蓄積される。また、必要な量子化ビット数が平均量子化ビット数を上回る場合、上回った分のビット数に対しては、蓄積しておいた余剰ビット数が使用される。

[0027] 図では例えば、フレーム 1の量子化ビット数は 100なので、平均量子化ビット数と等しいため、余剰ビット数は 0である。フレーム 2の量子化ビット数は 80で、平均量子化ビット数に対して 20下回るので、このときの余剰ビット数は 20 ( = 100— 80)となる。

[0028] フレーム 3の量子化ビット数は 70であり、このときの余剰ビット数は、フレーム 2ですでに蓄積されて、る余剰分も含めて 50 ( = 100- 70 + 20)となる。

フレーム 4の量子化ビット数は 120であり、平均量子化ビット数を 20上回る。このような場合、超過した 20はフレーム 3のときに蓄積されていた余剰ビット数 50から使用される。したがって、このときの余剰ビット数は 30 ( = 50— 20)となる。以降同様にして、フレームに割り当てられるビット数の増減の吸収を行って可変ビットレート制御が行われる。

[0029] なお、フレーム 2、 3が LONGブロックで符号化されるフレームであり、フレーム 4が S

HORTブロックで符号化されるフレームであるとすると、 LONGブロックは、量子化に要するビット数が小さ、ので、余剰ビット数が蓄積される。

[0030] 一方、 SHORTブロックのように、量子化に要するビット数が大き、場合は、 LONGブロックのときに蓄積されている余剰ビット数が SHORTブロックの量子化時に回されて使用されること〖こなる。

[0031] ここで、圧縮率が低ぐ量子化ビット数を多く割り当てることが可能な高ビットレート条件では、フレーム内にアタック音のような変化の大きい信号が存在して、知覚ェントロピーが高!、値を示す場合、 SHORTブロックを選択して符号ィ匕すればプリエコーが抑制され、かつ、ビットリザーバの平均量子化ビット数の値も大きいので、ビットリザーバのビット不足も生じることはな、。

[0032] しかし、圧縮率を高めて、量子化ビット数を多く割り当てることができない低ビットレート条件では、ビットリザーバの平均量子化ビット数の値が小さ!/、ので (使用できるビット数が元々少な、と、うこと）、知覚エントロピーが大き、値のときに SHORTブロックを選択すると、すぐに余剰ビット数が消費されてビット不足状態を生じ、著しい音質劣化が生じるといった問題があった。

[0033] したがって、アタック音のような変化の大きい信号が存在するフレームで、プリェコ一を抑制するために SHORTブロックを選択して符号ィ匕してヽるにもかかわらず、符号化に必要なビットが不足しているために、プリエコーよりも激しい音質劣化が生じてしまうことになる（ビット不足で生じる音質劣化は、プリエコーよりも強い音質劣化と感じられる）。

[0034] 一方、近年では、 48kHzサンプリングステレオ信号を 96kbps以下（圧縮率 1Z16 以上)で符号ィ匕するような低ビットレート条件の放送などが開始されている (例えば、携帯電話機向けの地上波ディジタル放送（1セグメント放送)などである)。

[0035] なお、 48kHzサンプリングステレオ信号を何ら圧縮せずに伝送しょうとすると、 48k Hzサンプリングステレオ信号は、 1秒間〖こ 48000サンプルあって、 1サンプルを 16bit で表現し、 2chで伝送するならば、 48000 X 16 X 2 = 1536kbpsとなる。 1536kbpsの 1 Z16が 96kbpsである（一般に MP3 (MPEG Audio Layer 3)形式のプレーヤ機器では、 CDの 44. 1kHzの信号をおよそ 128kbpsまで圧縮して CDの音質を再現している力上記のような携帯電話機向けの地上波ディジタル放送では、 48kHzを 128kb psよりもさらに低い 96kbps以下まで圧縮しているので、圧縮率は非常に高ぐ音質劣化を抑制するには難しヽ領域で符号化してヽることがゎカゝる)。

[0036] このような低ビットレート条件での放送 ·通信サービスでは、使用できるビット数が少ないため、アタック音のような変化の大きい信号が存在したり、または変化の大きい信号が連続して続くような場合には、ビットリザーバに蓄積される余剰ビット数の消費量が増加し、急激なビット不足が発生する。

[0037] 特に多くのビット数を必要とする SHORTブロックでのビット不足は、符号ィ匕性能を大幅に低下させ、プリエコーが発生して、るときよりも著しく音質を劣化させてしまう。これにより、低ビットレート条件でサービスを行う地上波ディジタル放送などの分野で、従来の AACエンコーダによるオーディオ信号の符号ィ匕処理を行うと、入力信号に応じて正確に SHORTブロックを選択して符号ィ匕して、るにもかかわらず、大きな音質劣化が生じてしまうといった問題があった。

[0038] 一方、上記の従来技術 (特開 2005— 3835号公報）では、ビットリザーバによって制御されている余剰ビット数に応じて LONGブロックまたは SHORTブロックを選択する際の聴覚エントロピーしきい値を決定し、これにより、余剰ビット数が足りない場合は、アタック音が存在するフレームであっても、 SHORTブロックを選択せずに、 LONGブロックを選択するようにして音質劣化の防止を行って、る。

[0039] しかし、この従来技術は、プリエコーよりも音質が悪くなるビット不足状態での SHOR Tブロックの選択をやめて、単純に LONGブロックに切り替える技術であるので、結局、 LONGブロック符号ィ匕時に発生するプリエコーによる音質劣化についての問題は再び表面化することになり、音質劣化抑制のための最適な解決方法とはいえない。

[0040] 本発明はこのような点に鑑みてなされたものであり、最適なブロック長を決定して符号ィ匕を行って、プリエコー及びビット不足力生じる音質劣化を改善したオーディオ符号化装置を提供することを目的とする。

[0041] また、本発明の他の目的は、最適なブロック長を決定して符号ィ匕を行って、プリェコ一及びビット不足力生じる音質劣化を改善したオーディオ符号ィ匕方法を提供することである。

課題を解決するための手段

[0042] 本発明では上記課題を解決するために、図 1に示すような、オーディオ信号の符号化を行うオーディオ符号化装置 10において、オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求める音響分析部 1 1と、オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求める符号ィ匕ビット数監視部 12と、知覚ェントロピーと余剰ビット数との組み合わせにもとづ、て、プリエコー及びビット不足力生じる音質劣化を抑制する符号ィ匕ブロック長となるように、オーディオ信号の 1フレームを、 1から Nまで N分割するための分割数を決定するフレーム分割数決定部 13と、決定された分割数で 1フレームを分割し、分割されたブロック長単位でオーディオ信号の直交変換を行って直交変換係数を求める直交変換部 14と、ブロック長単位で直交変換係数の量子化を行う量子化部 15と、を有することを特徴とするオーディオ符号化装置 10が提供される。

[0043] ここで、音響分析部 11は、オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求める。符号ィ匕ビット数監視部 12は、オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求める。フレーム分割数決定部 13は、知覚エントロピ一と余剰ビット数との組み合わせにもとづいて、オーディオ信号の 1フレームを、 1から Nまで N分割するための分割数を決定する。直交変換部 14は、決定された分割数で 1フレームを分割し、分割されたブロック長単位でオーディオ信号の直交変換を行つて直交変換係数を求める。量子化部 15は、ブロック長単位で直交変換係数の量子化を行う。

発明の効果

[0044] 本発明のオーディオ符号化装置は、知覚エントロピーと余剰ビット数との組み合わせにもとづいて、オーディオ信号の 1フレームを、 1から Nまで N分割するための分割数を求め、求めた分割数で 1フレームを分割し、分割されたブロック長単位でオーディォ信号の直交変換を行って直交変換係数を求め、ブロック長単位で直交変換係数の量子化を行う構成とした。これにより、最適なブロック長を決定して符号ィ匕を行うことができ、プリエコー及びビット不足力も生じる音質劣化を改善して、オーディオ信号符号ィ匕品質の向上を図ることが可能になる。

[0045] 本発明の上記および他の目的、特徴および利点は本発明の例として好ま U、実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

図面の簡単な説明

[0046] [図 1]オーディオ符号ィ匕装置の原理図である。

[図 2]変換マップを示す図である。

[図 3]フレーム分割例を示す図である。

[図 4]オーディオ符号ィ匕装置の原理図である。 [図 5]グループ化の一例を示す図である。

[図 6]グループ化の一例を示す図である。

[図 7]符号ィ匕音声の処理波形を示す図である。（A)は入力信号波形、（B)はビット不足状態のときに SHORTブロックで符号ィ匕した波形、（C)は本発明による符号化波形を示す図である。

[図 8]LONGブロックと SHORTブロックの関係を示す図である。

[図 9]従来の AACエンコーダの概略構成を示す図である。

[図 10]アタック音を含む符号ィ匕前の入力信号を示す図である。

[図 11]プリエコーを示す図である。

[図 12]SHORTブロックで符号ィ匕したときの復号音を示す図である。

[図 13]ビットリザーバの動作概念を示す図である。

発明を実施するための最良の形態

[0047] 以下、本発明の実施の形態を図面を参照して説明する。図 1はオーディオ符号ィ匕装置の原理図である。第 1の実施の形態のオーディオ符号化装置 10は、音響分析部 11、符号ィ匕ビット数監視部 12、フレーム分割数決定部 13、直交変換部 14、量子化部 15、ビットストリーム生成部 16から構成され、オーディオ信号の符号化を行う装置である。

[0048] 音響分析部 11は、入力されたオーディオ信号を FFT (Fast Fourier Transform)分祈して FFTスペクトルを求め、 FFTスペクトルから音響パラメータの 1つである知覚ェントロピー PE (PEは Perceptual Entropyの略）を求める。

[0049] 知覚エントロピー PEとは、量子化するのに必要なビット数を表すパラメータのことである（リスナーが雑音を知覚することがないように、そのフレームを量子化するのに必要な総ビット数である)。

[0050] また、知覚エントロピー PEは、上述したように、アタック音のように信号レベルが急激に増大するところでは大きな値をとるという特性がある。なお、音響パラメータとしては、マスキングしきい値などのパラメータも実際には求める力本発明とは直接関係ないので説明は省略する。

[0051] 符号ィ匕ビット数監視部 12は、符号ィ匕の際にあらかじめ設定される平均量子化ビット数（図 13で上述）に対する量子化後の符号ィ匕ビット数の過不足 (符号ィ匕ビット数の消費量）をフレーム毎に求め、現フレームで使用可能なビット数を余剰ビット数として求める。

[0052] フレーム分割数決定部 13は、知覚エントロピー PEと余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足力生じる音質劣化を抑制する符号ィ匕ブロック長となるように、オーディオ信号の 1フレームを、 1から Nまで N分割するための分割数を決定する。

[0053] 例えば、 N= lなら、 1つのブロック長は LONGブロックとなり、 N = 8なら、 1つのブロック長は SHORTブロックとなる力 LONGZSHORTブロックの分割数に限らず、ォーディォ符号化装置 10では、 Nは任意の数であり、 1フレームを任意のブロック長に分割する。

[0054] 直交変換部 14は、決定された分割数で 1フレームを分割し、分割されたブロック長単位でオーディオ信号の直交変換を行って直交変換係数 (周波数スペクトル)を求める。直交変換としては、具体的には MDCT (Modified Discrete Cosine Transform) を行い、直交変換係数として MDCT係数を求める。

[0055] 直交変換部 14の動作例として、 LONGブロックの場合と SHORTブロックの場合について説明すると、 LONGブロックが選択された場合は、 1024点の MDCTにより MDC T係数を求める。また、 SHORTブロックが選択された場合は、 128点の MDCTにより MDCT係数を求める。なお、 SHORTブロックでは、 1フレーム中 SHORTブロックは 8 ブロックあるので、 MDCT係数は 8組求まることになる。そして、これらの MDCT係数 (周波数スペクトル）は、後段の量子化部 15へ送信される。

[0056] 量子化部 15は、分割されたブロック長単位で求められた MDCT係数の量子化を行う。このとき、最終的に出力される総ビット数力現ブロックで許される使用ビット数を超えないように、ビット数を調整して最適化な量子化を実現する。ビットストリーム生成部 16は、量子化部 15で求められた量子化値を送信フォーマットに乗せて、ビットストリームを生成し、伝送路を通じて送信する。

[0057] 次にフレーム分割数決定部 13における、オーディオ信号 1フレームを分割するときの分割数の決定方法について説明する。フレーム分割数決定部 13では、音響分析部 11から入力された知覚エントロピー PEと、符号ィ匕ビット数監視部 12から入力された余剰ビット数との値に応じてフレームの分割数 Nを求めて、直交変換部 14へ出力する。

[0058] ここで、知覚エントロピー PEと余剰ビット数に対するフレームの分割数 Nの関係は、知覚エントロピー PEについては、知覚エントロピー PEが小さな値ならば、該当フレームは、定常信号がほとんどを占めており、知覚エントロピー PEが大きな値ならば該当フレームには、アタック音のような変化の大きな信号が含まれており、このとき符号ィ匕ブロック長を長くすると、プリエコーによって音質劣化が生じる。

[0059] したがって、知覚エントロピー PEが大きい場合には、プリエコーによる音質劣化を抑制するために、符号化ブロック長は短く（フレームの分割数 Nを多く）することが必要である。

[0060] 一方、余剰ビット数につ、ては、符号化ブロック長が短、と、量子化時のビット数を多く要し、このとき使用可能な余剰ビット数が少ないと、ビット不足状態となって音質劣化が生じる。

[0061] したがって、余剰ビット数が少ない場合には、ビット不足による音質劣化を抑制するために、符号ィ匕ブロック長を長く（フレームの分割数 Nを少なく）することが必要である上記の知覚エントロピー PEと余剰ビット数との関係を考慮して、プリエコー及びビット不足力生じる音質劣化を抑制する符号ィ匕ブロック長となるように、フレーム分割数決定部 13では、知覚エントロピー PEと余剰ビット数との組み合わせに応じて分割数

Nを求めるための変換マップを有して!/、る。

[0062] 図 2は変換マップを示す図である。変換マップ Mlの縦軸は知覚エントロピー、横軸は余剰ビット数である。また、 1フレームの最大分割数を Nmaxとすると、分割数 Nを決める境界ライン l〜Nmax— 1が設定されている。

[0063] 変換マップ Mlを用いることにより、余剰ビット数が a、知覚エントロピー PEの値が b の場合の組合せによる C= (a, b)の位置に応じて、分割数 Nを決定することができる（図では分割数 = 5が求められて、る）。

[0064] なお、変換マップ Mlの分割するブロックの境界は、等間隔に限定するものではなく、また別の方法として入力信号における変化点の位置に応じて境界を決めることもできる。また、分割数を Block— Num、余剰ビット数を Available— bit、知覚エントロピーを PEとして、 Block— Num=F (Available— bit, PE)のような関数 Fとして表現することもできる。

[0065] 一方、直交変換部 14は、ブロック分割数 Nに応じて、 1フレームの入力信号を N個のブロックに分割し、それぞれのブロックに対して MDCTにより周波数スペクトルを求める。また、量子化部 15では、ブロック単位の MDCT係数を量子化する。

[0066] 図 3はフレーム分割例を示す図である。フレーム分割数決定部 13で決定された分割数が 4の場合を示している。従来では、 LONGブロックと、 8分割した SHORTブロックとの、ずれかのブロック長を MDCTして量子化して!/、たが、オーディオ符号化装置 10では、知覚エントロピー PEと余剰ビット数に応じて、プリエコー及びビット不足から生じる音質劣化を抑制する符号ィ匕ブロック長となるような分割数で、 1フレームを任意の数に分割することができる。そして、分割したブロック長単位で MDCT、量子化を行う。

[0067] 図では、 1フレームが 1024サンプルであれば、分割数 =4なので、 1ブロック長は 2 56サンプルであり、このブロック長単位で MDCT、量子化が行われることになる。以上説明したように、オーディオ符号化装置 10では、知覚エントロピー PEと余剰ビット数との組み合わせにもとづいて、オーディオ信号の 1フレームを、 1力も Nまで N分割するための分割数を求め、求めた分割数で 1フレームを分割し、分割されたブロック長単位でオーディオ信号の MDCTを行って MDCT係数を求め、分割されたブロック長単位で MDCT係数の量子化を行う構成とした。

[0068] 従来技術 (例えば、特開 2005— 3835号公報）においては、アタック音のような変化の大き、信号が存在するフレームでは、プリエコーを抑制するために SHORTブロックを選択して符号化すると、符号ィ匕に必要なビットが不足して、プリエコーよりも激し V、音質劣化が生じてしまうので、ビット不足状態では LONGブロックを選択して符号ィ匕を行っていた。

[0069] したがって、従来技術では、単に SHORTブロック（1フレームを 8ブロックに分割）とし ONGブロック（分割しな、）の切り替えのみを行って!/、るだけであるので、変化の大き V、信号が存在するフレームの符号化時に、ビット不足状態だからと、つて LONGブロックを選択した場合には、ビット不足により音質劣化は回避できても、プリエコーによる音質劣化が生じてしまい、適切な音質劣化抑制が行われていな力つた。

[0070] 一方、オーディオ符号ィ匕装置 10においては、知覚エントロピー PEと余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制する符号ィ匕ブロック長となるような分割数 Nを求めて、任意の数で分割されたブロック長を生成し（SHORTブロックや LONGブロックだけでなぐ任意の分割数による任意のブロック長を生成する）、そのブロック長単位で MDCT及び量子化を行うので、圧縮率が高ぐ低ビットレート条件下でのオーディオ符号ィ匕時でも、音質劣化を大幅に改善することが可能になる。

[0071] 次に第 2の実施の形態のオーディオ符号化装置について説明する。図 4はオーディォ符号化装置の原理図である。オーディオ符号化装置 20は、音響分析部 21、符号化ビット数監視部 22、フレーム分割数決定部 23、直交変換部 24、量子化部 25、ビットストリーム生成部 26から構成され、オーディオ信号の符号化を行う装置である。

[0072] 音響分析部 21は、入力されたオーディオ信号 (Input— sig(n))を FFT分析して FFT スペクトルを求め、 FFTスペクトルから音響パラメータの 1つである知覚エントロピー P Eを求める。

[0073] 符号ィ匕ビット数監視部 22は、符号ィ匕の際にあらかじめ設定される平均量子化ビット数に対する量子化後の符号ィ匕ビット数の過不足 (符号ィ匕ビット数の消費量)をフレーム毎に求め、現フレームで使用可能なビット数を余剰ビット数 (Available— bit)として求める。

[0074] フレーム分割数決定部 23は、知覚エントロピー PEと余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足力生じる音質劣化を抑制する符号ィ匕ブロック長となるように、オーディオ信号の 1フレームを分割する分割数を決定する。

[0075] なお、以降ではオーディオ符号ィ匕装置 20の機能を AACエンコーダに適用したものとして、最大分割数 =8とする（最小ブロック長 = SHORTブロック)。そして、決定した分割数 (Block— Num)は、直交変換部 24へ出力される。

[0076] 直交変換部 24は、分割数を Nとした際に、 N= 1の場合は、 1フレーム単位で直交変換 (MDCT)を行って第 1の直交変換係数を求める。また、最大分割数を Nmaxとした際に、 N = Nmaxの場合は、最大分割数で 1フレームを分割し、最大分割されたブロック長単位でオーディオ信号の直交変換を行って第 2の直交変換係数を求める。さらに、 1 < Nく Nmaxの場合は、最大分割数で 1フレームを分割して第 2の直交変換係数を求め、分割数 Nで第 2の直交変換係数をグループ化する。

[0077] 量子化部 25は、 N = 1の場合は、第 1の直交変換係数を 1フレーム単位で量子化し、 N = Nmaxの場合は、第 2の直交変換係数を最大分割されたブロック長単位で量子化する。さらに、 l < N < Nmaxの場合は、第 2の直交変換係数をグループ化単位で量子化する。

[0078] 次にオーディオ符号ィ匕装置 20の詳細動作について説明する。図 4において、 102

4サンプルの入力信号 Input— sig (n) (η=0 · · · 1023)力 1フレームとして直交変換部 2

4と音響分析部 21へと入力される。

[0079] 〔音響分析部 21〕

音響分析部 21では、人間の聴覚特性にもとづいて、知覚エントロピー ΡΕを求め、フレーム分割数決定部 23へ出力する。

[0080] 〔符号化ビット数監視部 22〕

符号ィ匕ビット数監視部 22は、現フレームで使用可能な余剰ビット数 Available— bitを求めて、フレーム分割数決定部 23へ出力する。 Available— bitは以下の式（1)を用いて求められる。

[0081] Available一 Dit = average一 bit + Reserve一 bit · · · ( 1)

average— bitは、符号ィ匕の際にあら力じめ設定される平均量子化ビット数であり、 Re serve— bitは、ビットリザーバに蓄積されているビット数であって、次式で求められる。

[0082] Reserve一 bit = Prev一 Reserve一 bit + ^average一 bit― quant一 bit J · · · (2)

quant— bitは、前フレームでの量子化後の符号化ビット数、 Prev— Reserve— bitは、前フレームでの Reserve— bitであり、 Reserve— bitは平均ビット数に対する量子化ビット数の現フレームでの過不足分で表される。

[0083] なお、 average— bitは、式（3)で求められる。

average bit = (bitrate X frame lengthノ/ freq · · · \3) bitrateは、符号化ビットレート [bps]、 frame— lengthはフレーム長 [1024サンプル]、 fre qは入力信号のサンプリング周波数 [Hz]である。

[0084] 〔フレーム分割数決定部 23〕

フレーム分割数決定部 23は、音響分析部 21で求めた知覚エントロピー PEと、符号化ビット数監視部 22で求めた Available— bitに応じて、分割数 N (Block— Num)を決定し、直交変換部 24へ出力する。

[0085] 分割数は、上述の図 2に示した変換マップ Mlを使用して求める。すなわち、変換マップ Mlには、あら力じめ境界線 1から境界線 7が設定されており（境界線の間隔及び本数は任意に設定可能）、知覚エントロピー PEと余剰ビット数 Available— bitの組み合わせによるマップ上の位置 C= (Available— bit, PE)に応じて分割数 Nを決定する。

[0086] 〔直交変換部 24〕

直交変換部 24は、 Block— Num= 1の場合には LONGブロックとして入力信号 102

4点の MDCT変換により、 MDCT係数（MDCT— LONG)を求める（第 1の直交変換係数 = (MDCT一 LONG) )。

[0087] Block— Num=8の場合には（Nmax=8)、入力信号を SHORTブロック単位の 128 点毎に MDCT変換し、 MDCT係数（MDCT— SHORT)を 8組生成する（第 2の直交変換係数 = (MDCT— SHORT) )。

[0088] 1 < Block_Num< 8の場合には、ー且、（MDCT— SHORT)を求める。すなわち、 B1 ock— Num = 8のときと同様に、入力信号を SHORTブロック単位の 128点毎に MDC

T変換し、 MDCT係数（MDCT_SHORT)を 8組生成する。

[0089] そして、この 8組の MDCT係数を、あらかじめ定めておいたパターンでグループ化して、 Block— Num組の MDCT係数を生成する。例えば、 Block— Num = 5であったならば、 8組の MDCT係数を組み合わせて 5組にグループ化する。

[0090] 図 5はグループ化の一例を示す図である。 1フレームを SHORTブロック単位で 8分割し、 8分割された 1つの最小ブロック長力分割数 2〜7でグループィ匕されている様子を示している。

[0091] 例えば、分割数が 5の場合、ブロック長は図に示すような 5組にグループ化され、グループ gl〜g5のグループ化単位で MDCT係数は、後段の量子化部 25へ出力されて、グループ glの MDCT係数の量子化、グループ g2の MDCT係数の量子化といつたように、グループ化単位での量子化が行われる。

[0092] 図 6はグループ化の一例を示す図である。図に示すように、信号変化点の近傍のブロック長ができるだけ短くなるように、グループィ匕の境界を設定することもできる。図では例えば、最小ブロック長 # 6の近傍に、アタック音のような変化の大きな信号が含まれる場合には、最小ブロック長 # 6近傍のブロック長ができるだけ短くなるように、グループ化の境界を設定している。このように、信号変化点の近傍のブロック長ができるだけ短くなるように、グループ化の境界を設定することで、プリエコーの低減化をさらに図ることが可能になる。

[0093] 〔量子化部 25〕

量子ィ匕部 25は、 Block— Num= lの場合には、 MDCT係数（MDCT— LONG)を量子化する。すなわち、 1フレーム単位の MDCT係数を量子化して量子化値を求める

[0094] Block_Num=8の場合には、 MDCT係数（MDCT_SHORT)を量子化する。すなわち、最大分割数単位 (8組)の MDCT係数を量子化して量子化値を求める。

1 < Block— Numく 8の場合には、グループ化された各 SHORTブロック MDCT係数 (MDCT— SHORT)を、グループ化単位に量子化して量子化値を求める。

[0095] なお、量子化部 25では、上記のいずれの場合分けにおいても、周波数バンド毎に MDCT係数を量子化する。すなわち、 LONGブロックの場合なら 1024個の MDCT 係数を周波数バンド毎に量子化し、 SHORTブロックの場合なら 128個の MDCT係数を周波数バンド毎に量子化する。また、グループィ匕されている場合、例えば、図 5のグループ glの場合なら、 256 (= 128 X 2)個の MDCT係数を周波数バンド毎に量子化する。

[0096] また、このとき最終的に出力される総ビット数力現ブロックで許される使用ビット数を下回るように、量子化誤差とビット数を調整して最適な量子化を行う。

そして、スペクトル量子化値をビットストリーム生成部 26へ出力する。

[0097] 〔ビットストリーム生成部 26〕ビットストリーム生成部 26は、量子化部 15で求められた量子化値を送信フォーマツトに乗せて、ビットストリームを生成し、伝送路を通じて送信する。

[0098] 次にオーディオ符号化装置 20の効果について説明する。図 7は符号化音声の処理波形を示す図である。本発明で実測した符号ィ匕音声の処理波形を示しており、 (A )は入力信号波形、 (B)はビット不足状態のときに SHORTブロックで符号ィ匕した波形、（C)は本発明による符号ィ匕波形である。

[0099] (A)の入力信号には、アタック音が含まれている。このような入力信号をビット不足状態にもかかわらず、 SHORTブロックを選択した場合には、（B)に示すように、ァタツク音部の波形が著しく歪んでおり、大きな音質劣化が生じている。

[0100] 一方、本発明のように適切なブロック長に分割して符号ィ匕した場合、 (C)に示すように、アタック音部の波形改善が得られていることがわかる。なお、アタック音部の前後でプリエコー（図中の細かい歪）が発生する力このプリエコーはわずかな雑音であり主観的に感じられるものではない。

[0101] このように、プリエコー及びビット不足力生じる両方の音質劣化を抑制することができ、リスナーが感じる主観的な音質劣化を大幅に改善することができる。

次にオーディオ符号化装置 10、 20の適用分野について説明する。オーディオ符号化装置 10、 20は、例えば、 1セグディジタルラジオ放送システムや楽音ダウンロードサービスシステムなどに適用可能である。

[0102] 1セグ放送では、従来の地上波ディジタルテレビ放送に比べ伝送帯域が狭い（=伝送レートが低い)ため、従来よりも情報量の圧縮が必要である。さらにモパイル端末では、無線で電波を伝送する際に生じるエラー (情報欠落)を抑制するため、符号化情報に冗長性を持たせて伝送を行う。したがって、冗長性をもたせる分、さらに高い情報量の圧縮が要求されて、る。

[0103] 一方、携帯端末への楽音ダウンロードサービスなどでは、携帯端末に搭載されて!、る記憶媒体のメモリ容量やデータ通信量に伴う課金などのユーザにとっての制約があるため、より圧縮率が高ぐかつ音質が良い情報量の圧縮が要求されている。

[0104] オーディオ符号化装置 10、 20では、知覚エントロピー PEと余剰ビット数に応じて、プリエコー及びビット不足力生じる音質劣化を抑制する符号ィ匕ブロック長となるようにフレームを適応的に分割して符号ィ匕を行うので、上記のような、圧縮率が高ぐ低ビットレートの厳しい条件下において使用しても、音質劣化を大幅に改善することができ、高品質なオーディオ符号ィ匕を行うことが可能になる。

[0105] 以上説明したように、本発明によれば、音響分析によって得られた知覚エントロピー

(入力信号の変化の度合い）とその時点で使用可能なビット数を監視することにより、ビット不足による音質劣化を事前に予測し、入力信号に対して、使用可能なビット数を考慮した最適なブロック長 (ブロック分割数)を決定することができる。これにより、ビット不足状態での SHORTブロック選択による著しい音質劣化を回避することが可能になる。

[0106] また、最大分割数 Nmaxで直交変換した際の周波数スペクトルをグループィ匕することにより、符号ィ匕方式の規格によって分割数が限定される場合でも（例えば、 AACェンコーダでは、 1フレームを SHORTブロックにするには、最大分割数 =8)、擬似的に N分割の符号ィ匕を実行することが可能になる。

[0107] さらに、入力信号における変化点の位置に応じて、ブロック境界を決めることにより、分割数 Nが少な、場合でも変化点で生じるプリエコーを低減ィ匕することが可能になる。

上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなぐ対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

符号の説明

[0108] 10 オーディオ符号化装置

11 音響分析部

12 符号ィ匕ビット数監視部

13 フレーム分割数決定部

14 直交変換部

15 量子化部

16 ビットストリーム生成部 PE 知覚エントロピー

Claims

請求の範囲

[1] オーディオ信号の符号ィ匕を行うオーディオ符号ィ匕装置において、

前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求める音響分析部と、

前記オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求める符号ィ匕ビット数監視部と、

前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづ、て、プリエコー及びビット不足力生じる音質劣化を抑制する符号ィ匕ブロック長となるように、前記ォ一ディォ信号の 1フレームを、 1から Nまで N分割するための分割数を決定するフレーム分割数決定部と、

決定された前記分割数で 1フレームを分割し、分割されたブロック長単位で前記ォ一ディォ信号の直交変換を行って直交変換係数を求める直交変換部と、

前記ブロック長単位で前記直交変換係数の量子化を行う量子化部と、を有することを特徴とするオーディオ符号ィ匕装置。

[2] 前記フレーム分割数決定部は、前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が少ない場合は、ビット不足から生じる音質劣化を抑制するために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピ一と前記余剰ビット数に対する前記分割数の関係を定めた変換マップを有することを特徴とする請求の範囲第 1項記載のオーディオ符号化装置。

[3] オーディオ信号の符号化を行うオーディオ符号化装置にお!ヽて、

前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづ、て、プリエコー及びビット不足力生じる音質劣化を抑制する符号ィ匕ブロック長となるように、前記ォ一ディォ信号の 1フレームを分割する分割数を決定するフレーム分割数決定部と、前記分割数を Nとした際に、 N= lの場合は、 1フレーム単位で直交変換を行って第 1の直交変換係数を求め、最大分割数を Nmaxとした際に、 N = Nmaxの場合は、前記最大分割数で 1フレームを分割し、最大分割されたブロック長単位で前記ォーディォ信号の直交変換を行って第 2の直交変換係数を求め、 1 < N< Nmaxの場合は、前記最大分割数で 1フレームを分割して前記第 2の直交変換係数を求め、分割数 Nで前記第 2の直交変換係数をグループィヒする直交変換部と、

N= lの場合は、前記第 1の直交変換係数を 1フレーム単位で量子化し、 N = Nma Xの場合は、前記第 2の直交変換係数を最大分割されたブロック長単位で量子化し、 1 < N< Nmaxの場合は、前記第 2の直交変換係数をグループ化単位で量子化する量子化部と、

を有することを特徴とするオーディオ符号ィ匕装置。

[4] 前記フレーム分割数決定部は、前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が少ない場合は、ビット不足から生じる音質劣化を抑制するために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピ一と前記余剰ビット数に対する前記分割数の関係を定めた変換マップを有することを特徴とする請求の範囲第 3項記載のオーディオ符号化装置。

[5] 前記直交変換部は、前記オーディオ信号の変化点近傍のブロック長が短くなるようにグループィ匕の境界を設定することを特徴とする請求の範囲第 3項記載のオーディォ符号化装置。

[6] オーディオ信号の符号ィ匕を行うオーディオ符号ィ匕方法にぉ、て、

前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求め、

前記オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求め、

前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづ、て、プリエコー及びビット不足力生じる音質劣化を抑制する符号ィ匕ブロック長となるように、前記ォ一ディォ信号の 1フレームを、 1から Nまで N分割するための分割数を決定し、決定された前記分割数で 1フレームを分割し、分割されたブロック長単位で前記ォ一ディォ信号の直交変換を行って直交変換係数を求め、

前記ブロック長単位で前記直交変換係数の量子化を行うことを特徴とするオーディォ符号化方法。

[7] 前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が少な、場合は、ビット不足力生じる音質劣化を抑制するために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピーと前記余剰ビット数に対する前記分割数の関係を定めた変換マップを有することを特徴とする請求の範囲第 6項記載のオーディオ符号化方法。

[8] オーディオ信号の符号ィ匕を行うオーディオ符号ィ匕方法にぉ、て、

前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづ、て、プリエコー及びビット不足力生じる音質劣化を抑制する符号ィ匕ブロック長となるように、前記ォ一ディォ信号の 1フレームを分割する分割数を決定し、

前記分割数を Nとした際に、 N= lの場合は、 1フレーム単位で直交変換を行って第 1の直交変換係数を求め、

最大分割数を Nmaxとした際に、 N = Nmaxの場合は、前記最大分割数で 1フレームを分割し、最大分割されたブロック長単位で前記オーディオ信号の直交変換を行つて第 2の直交変換係数を求め、

l <N<Nma_Xの場合は、前記最大分割数で 1フレームを分割して前記第 2の直交変換係数を求め、分割数 Nで前記第 2の直交変換係数をグループ化し、

N= 1の場合は、前記第 1の直交変換係数を 1フレーム単位で量子化し、

N = Nmaxの場合は、前記第 2の直交変換係数を最大分割されたブロック長単位で量子化し、 1 < N< Nmaxの場合は、前記第 2の直交変換係数をグループ化単位で量子化することを特徴とするオーディオ符号ィ匕方法。

[9] 前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が少な、場合は、ビット不足力生じる音質劣化を抑制するために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピーと前記余剰ビット数に対する前記分割数の関係を定めた変換マップを有することを特徴とする請求の範囲第 8項記載のオーディオ符号化方法。

[10] 前記オーディオ信号の変化点近傍のブロック長が短くなるようにグループィ匕の境界を設定することを特徴とする請求の範囲第 8項記載のオーディオ符号ィ匕方法。