JP4533386B2

JP4533386B2 - オーディオ符号化装置及びオーディオ符号化方法

Info

Publication number: JP4533386B2
Application number: JP2006527708A
Authority: JP
Inventors: 政直鈴木; 義照土永; 美由紀白川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-07-22
Filing date: 2004-07-22
Publication date: 2010-09-01
Anticipated expiration: 2024-07-22
Also published as: WO2006008817A1; EP1775718A1; JPWO2006008817A1; EP1775718A4; US20070118368A1

Description

本発明は、オーディオ信号を符号化するオーディオ符号化装置及びオーディオ符号化方法に関する。

近年、インターネットや衛星放送等の通信分野が急速に普及している。また、ＤＶＤ等のＡＶ機器も急速に普及している。これらの普及に伴い、オーディオ信号を効率良く圧縮するオーディオ符号化に対する需要が高まっている。近年のオーディオ符号化装置は、人間の聴覚特性を利用した適応変換オーディオ符号化装置が主流である。適応変換オーディオ符号化装置の基本的な符号化処理は、以下の通りである。

この符号化処理では、時間領域のオーディオ信号が周波数領域へ変換される。そして、周波数軸上の信号が聴覚の周波数分解能に対応する周波数帯域で区切られる。そして、人間の聴覚特性を利用して、各周波数帯域で符号化に必要な最適な情報量が計算される。

そして、各周波数帯域に割り振られた情報量に従い、周波数軸上の信号が量子化される。適応変換オーディオ符号化装置の中に、ＩＳＯ（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ）／ＩＥＣ（ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ）で標準化されたＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）−２ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）方式がある。この方式は、ＢＳデジタル放送にも採用されている。この方式は、低いビットレートで高い音質を実現できるオーディオ符号化装置として近年注目を浴びている。

（第１の従来技術）
図１０は、第１の従来技術である、ＭＰＥＧ−２ＡＡＣのエンコーダの構成を示す構成図である。以下、この図に示される技術を第１の従来技術とする。ＡＡＣエンコーダの詳細は、例えば下記の非特許文献１に詳しく記載されている。

ＡＡＣエンコーダは、入力信号を所定のサンプル数からなるフレームに分割する。そして、ＡＡＣエンコーダは、フレーム毎に符号化処理を行う。ＡＡＣ方式のフレーム長は、長ブロック（１０２４サンプル）と短ブロック（１２８サンプル）との２種類がある。ここで、１フレームと１長ブロックの長さとは同じである。以下の説明は、図１０に示されるＡＡＣエンコーダの処理手順である。

（１）まず、入力信号がフレーム化部１００１に入力される。フレーム化部１００１は、入力信号を所定のサンプル数からなるフレーム（長ブロック）に分割する。フレーム化部１００１から出力された信号が、長ブロック用の離散コサイン変換部（以下、単に、ＭＤＣＴ変換部と記す。）１００２と短ブロック用のＭＤＣＴ変換部１００３とに入力される。

長ブロック用のＭＤＣＴ変換部１００２は、入力した信号に対して１０２４点のＭＤＣＴ変換を行う。そして、長ブロック用のＭＤＣＴ変換部１００２は、ＭＤＣＴ係数（ＭＤＣＴ１）を算出する。また、短ブロック用のＭＤＣＴ変換部１００３は、入力した信号に対して１２８点のＭＤＣＴ変換を行う。そして、短ブロック用のＭＤＣＴ変換部１００３は、ＭＤＣＴ係数（ＭＤＣＴ２）を算出する。尚、１フレームにつき短ブロックは８ブロックあるので、ＭＤＣＴ２は８組生成される。

（２）次に、フレーム化部１００１は、分割した入力信号を、長ブロック用の心理聴覚分析部１００４へ出力する。そして、長ブロック用の心理聴覚分析部１００４は、入力信号から長ブロック用のマスキング閾値Ｔｈ１と心理聴覚エントロピーＰＥ１とを求める。ここで、Ｔｈ１とＰＥ１との算出方法は、非特許文献１の心理聴覚モデルの項に示されている方法が公知である。同様にして、フレーム化部１００１は、フレームに分割した入力信号を、短ブロック用の心理聴覚分析部１００５へ出力する。そして、短ブロック用の心理聴覚分析部１００５は、入力信号から短ブロック用のマスキング閾値Ｔｈ２と心理聴覚エントロピーＰＥ２とを求める。

ここで、心理聴覚エントロピーとは、信号を量子化するのに最低限必要なビット数を表す情報量である。また、マスキングとは、量子化部により信号を量子化した時の誤差がある基準以下であれば、その誤差を人間が知覚できないという現象を指す。また、人間が知覚できない誤差の限界を示す基準値は、マスキング閾値と呼ばれる。

（３）長ブロックから得られたＰＥ１及びＴｈ１と、短ブロックから得られたＰＥ２及びＴｈ２とが、ブロック長判定部１００６へ入力される。ブロック長判定部１００６は、長ブロックと短ブロックとのどちらで量子化すべきかを判定する。

一般に、性質がほとんど変化しない定常的な信号は、長ブロックで量子化することが望ましい。ところが、ブロック内で振幅が急峻に変化する信号を長ブロックで量子化すると、入力信号にはないプリエコーと呼ばれる雑音が発生する。この雑音の発生は、音質劣化の原因となる。図１１は、プリエコーの例を示す概略図である。図１１の（ａ）は、符号化する前の入力信号を示す概略図であり、図１１の（ｂ）は、長ブロックのみで符号化した時の復号音を示すグラフである。図１１の（ｂ）の先頭部分には、アタック音の手前に、入力信号にはない雑音が発生している。

この雑音は、プリエコーと呼ばれる。プリエコーは、量子化ブロック長を短くすることで解消できる。そのため、ＡＡＣ方式は、ブロック長判定部１００６において入力信号の性質を判別している。そして、ブロック長判定部１００６は、量子化に最適なブロック長を判定する。具体的には、ブロック長判定部１００６は、ＰＥ１＞ＰＥ１＿ｔｈｒであれば長ブロックを選択し、それ以外の場合は短ブロックを選択する。ここで、ＰＥ１＿ｔｈｒは、あらかじめ決められた閾値（定数）である。

（４）ブロック長判定部１００６の判定結果は、ＭＤＣＴを選択する選択器１００７に出力される。また、ブロック長判定部１００６が選択したマスキング閾値は、スペクトル量子化部１００８に出力される。つまり、ブロック長判定部１００６が長ブロックを選択した場合は、ＭＤＣＴ１とＴｈ１とがスペクトル量子化部１００８に入力する。また、ブロック長判定部１００６が短ブロックを選択した場合は、ＭＤＣＴ２とＴｈ２とがスペクトル量子化部１００８に入力する。

（５）スペクトル量子化部１００８は、入力されたマスキング閾値に従って周波数バンド毎にＭＤＣＴ係数を量子化する。そして、スペクトル量子化部１００８は、量子化符号１を出力する。

（６）スペクトル量子化部１００８から出力された量子化符号１は、ハフマン符号化部１００９へ入力する。ハフマン符号化部１００９は、量子化符号１を、量子化符号１よりも更に冗長度が除去された量子化符号２に変換する。

（７）上記量子化符号２は、ハフマン符号化部１００９から量子化制御部１０１１に出力される。そして、量子化制御部１０１１は、入力した量子化符号２から、最終的に出力されるビットストリームの総ビット数を計算する。なお、図１０において、点線で囲まれた範囲は、量子化制御部１０１１が制御可能な範囲である。

（８）量子化制御部１０１１は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理（５）〜処理（７）を繰り返すように、スペクトル量子化部１００８と、ハフマン符号化部１００９とを制御する。また、量子化制御部１０１１は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部１００９からビットストリーム生成部１０１０に対して量子化符号２を出力させる。そして、量子化制御部１０１１は、ビットストリーム生成部１０１０がビットストリームを出力するように制御する。

ここで、ＡＡＣ方式の量子化プロセスの詳細を説明する。
（ａ）ＡＡＣ方式は、ＭＤＣＴスペクトルの指数部を初期値に設定する。
（ｂ）ＡＡＣ方式は、ＭＤＣＴスペクトルを仮数部と指数部とに変形する。すなわち、ＡＡＣ方式は、ＭＤＣＴスペクトルを浮動小数点表示に変形する。そして、ＡＡＣ方式は、仮数部を量子化する（ＭＤＣＴ量子化）。
（ｃ）ＡＡＣ方式は、（ｂ）で量子化された仮数部と指数部とをハフマン符号化した時に必要となるビット数（総ビット数）を求める。
（ｄ）ＡＡＣ方式は、（ｃ）で求めた総ビット数が現フレームに許された量子化ビット数（許容ビット数）以下であれば、量子化を終了する。ＡＡＣ方式は、総ビット数が許容ビット数以上の場合は、（ａ）で設定した指数部を不適当と判断する。そして、ＡＡＣ方式は、指数部を変更して（ｂ）〜（ｄ）の処理を繰り返す。そして、ＡＡＣ方式は、総ビット数が許容ビット数以下となる指数部を決定する。

すなわち、ＡＡＣ方式は、まず指数部を仮に固定する。そして、ＡＡＣ方式は、仮数部を決定してＭＤＣＴスペクトルの量子化を行う。そして、ＡＡＣ方式は、ＭＤＣＴスペクトルを指数部と仮数部とに変形した時の量子化誤差が許容誤差以下となるような総ビット数を求める。そして、ＡＡＣ方式は、総ビット数があらかじめ設定されたビットレートよりも大きければ不適当と判断する。そして、ＡＡＣ方式は、指数部を変更して、再び、ＭＤＣＴスペクトルの指数部の固定処理及び仮数部の量子化処理を行う。そして、ＡＡＣ方式は、量子化誤差が許容誤差以下であり、かつ、総ビット数が設定されたビットレート以下となるような最適な指数部と仮数部を決定する。

以上のように、ＡＡＣ方式は、量子化とハフマン符号化を行った後に、必要な総ビット数を計算する。そして、ＡＡＣ方式は、総ビット数が現フレームに許される許容ビット数以下となるような最適な指数部と仮数部を決定する。ここで、「最適な」とは、「量子化誤差が許容誤差以下となる」という意味である。

以上説明した通り、第１の従来技術は、長ブロックと短ブロックとから最適なブロック長を選択する。よって、第１の従来技術は、プリエコーの少ない良好な音質が得ることができる。ところが、第１の従来技術は、ＭＤＣＴ変換及び心理聴覚分析を、長ブロック用と短ブロック用とのそれぞれで行う。そのため、第１の従来技術は、処理量が多い。

（第２の従来技術）
上記第１の従来技術の問題を解決する方法として、ＭＤＣＴ変換と心理聴覚分析との前に、入力信号の性質を調べてブロック長を先に決定する方法が知られている。入力信号の性質を調べる方法には、例えば下記の特許文献１に開示された方法がある。この方法は公知である。

以下、特許文献１に開示された方法を、第２の従来技術とする。そして、この方法の構成を図１２に示す。図１２は、第２の従来技術の構成を示す構成図である。この第２の従来技術は、１フレームをさらに短い短ブロックに分割する。

（１）まず、入力信号がフレーム化部１２０１に入力する。フレーム化部１２０１は、入力信号を所定のサンプル数からなるフレーム（長ブロック）に分割する。フレーム化部１２０１から出力された信号は、電力算出部１２０２と、選択器１２０４と、心理聴覚分析部１２０８とに出力される。

電力算出部１２０２は、入力した信号から、電力及び電力変動比を算出する。電力算出部１２０２は、算出した電力変動比をブロック長判定部１２０３に出力する。

ブロック長判定部１２０３は、入力した電力変動比に基づいて、長ブロック又は短ブロックのいずれを用いるのかを判定する。そして、ブロック長判定部１２０３は、その判定結果を、選択器１２０４及び選択器１２０７に出力する。各選択器１２０４及び選択器１２０７は、ブロック長判定部１２０３の判定結果に基づいて、長ブロック又は短ブロックのいずれを用いるのか選択する。

長ブロック用のＭＤＣＴ変換部１２０５は、入力した信号に対して１０２４点のＭＤＣＴ変換を行う。そして、長ブロック用のＭＤＣＴ変換部１２０５は、ＭＤＣＴ係数（ＭＤＣＴ１）を算出する。

また、短ブロック用のＭＤＣＴ変換部１２０６は、入力した信号に対して１２８点のＭＤＣＴ変換を行う。そして、短ブロック用のＭＤＣＴ変換部１２０６は、ＭＤＣＴ係数（ＭＤＣＴ２）を算出する。尚、１フレームにつき短ブロックは８ブロックあるので、ＭＤＣＴ２は８組生成される。

（２）次に、心理聴覚分析部１２０８は、入力信号からマスキング閾値を求める。そして、入力信号から得られたマスキング閾値は、スペクトル量子化部１２０９に入力する。

（３）スペクトル量子化部１２０９は、入力されたマスキング閾値に従って周波数バンド毎にＭＤＣＴ係数を量子化する。そして、スペクトル量子化部１２０９は、ＭＤＣＴ係数を量子化した量子化符号１を出力する。

（４）スペクトル量子化部１２０９から出力された量子化符号１は、ハフマン符号化部１２１０へ入力する。ハフマン符号化部１２１０は、量子化符号１を、量子化符号１よりも更に冗長度が除去された量子化符号２に変換する。

（５）この量子化符号２は、量子化制御部１２１２に入力する。量子化制御部１２１２は、入力した量子化符号２に基づいて、最終的に出力されるビットストリームの総数を計算する。なお、図１２において、点線で囲まれた範囲は、量子化制御部１２１２が制御可能な範囲である。

（６）量子化制御部１２１２は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理（３）〜処理（５）を繰り返すように、スペクトル量子化部１２０９と、ハフマン符号化部１２１０とを制御する。また、量子化制御部１２１２は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部１２１０からビットストリーム生成部１２１１に対して量子化符号２を出力させる。そして、量子化制御部１２１２は、ビットストリーム生成部１２１１に対して、ビットストリームを出力するように制御する。

図１３は、第２の従来技術においてフレームを短ブロックに分割する場合の例を示す概念図である。図１３は、１フレームを４つの短ブロックに分割する場合を示している。第２の従来技術は、各短ブロックの入力信号電力Ｐ（１）、Ｐ（２）、Ｐ（３）、Ｐ（４）を求める。そして、第２の従来技術は、隣接する短ブロック間の電力変動比Δ_P（１，２）、Δ_P（２，３）、Δ_P（３，４）を求める。ここで、Δ_P（ｉ，ｊ）は、短ブロックｉと短ブロックｊの間の電力変動比である。Δ_P（ｉ，ｊ）は、次式で求められる。

電力変動比は、入力信号が急激に大きくなる場合に大きくなる。逆に、電力変動比は、入力信号が急に小さくなる場合に小さくなる。したがって、電力変動比がほとんど変化しない場合、ブロック長判定部１２０３は、長ブロックを選択する。また、ブロック長判定部１２０３は、電力変動比が急激に大きくなった場合や小さくなる場合に、短ブロックを選択する。この処理により、第２の従来技術は、最適な窓長を選ぶことができる。

また、第２の従来技術は、ブロック長を、ＭＤＣＴ変換及び心理聴覚分析の前に決定する。そのため、第２の従来技術は、長ブロック又は短ブロックの一方のみに対して、ＭＤＣＴ変換及び心理聴覚分析を実行する。したがって、第２の従来技術は、第１の従来技術に比べて少ない処理量でオーディオ信号を符号化することができる。

ところが、電力変動比が変化しなくても入力信号の性質が変化する場合、第２の従来技術は、入力信号の性質変化を検知できない場合がある。例えば、正弦波を入力とし、かつ、電力が一定のままで正弦波の周波数が変化した場合、第２の従来技術は、電力変動比のみを用いる方法では信号の変化点を検出することができない。

ここで、入力信号、電力変動比及び予測利得変動比の例について図１４を参照して説明する。図１４は、入力信号、電力変動比及び予測利得変動比の例を示すグラフである。図１４の（ａ）は、符号化する前の入力信号を示すグラフであり、図１４の（ｂ）は、電力変動比のグラフであり、図１４の（ｃ）は、予測利得変動比のグラフである。図１４の区間Ｂや区間Ｃは、無音部から有音部へ変化する。この場合は、電力変動比も大きく変化する。そのため、第２の従来技術は、これらの区間では、信号の変化点を検出することができる。

ところが、区間Ａは、入力信号の性質が定常部から過渡部に変化する。この場合、電力変動比は、ほとんど変化しない。そのため、この場合、第２の従来技術は、信号の変化を検出することができない。そのため、この場合、第２の従来技術は、長ブロックを選択する。しかし、この第２の従来技術のように、信号が急に変化する部分を長ブロックで処理すると、プリエコーが発生する。そのため、第２の従来技術は、音質が劣化する。
特開平７−６６７３３号公報ＩＳＯ／ＩＥＣ１３８１８−７のＰＡＲＴ７，"ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）"

前述のように、第１の従来技術は、ＭＤＣＴ変換及び心理聴覚分析を、長ブロック用と短ブロック用とのそれぞれで行う。そのため、第１の従来技術は、長ブロック又は短ブロックのみの処理の場合に比べて処理量が多くなるという問題がある。

また、第２の従来技術は、入力信号の性質が変化した場合であっても電力変動比が変化しなければ信号の性質の変化を検知できない。そのため、第２の従来技術は、適切なブロック長を選択できない場合があるという問題がある。

本発明の目的は、処理量を軽減しつつ、ブロック長を適切に選択することが可能なオーディオ符号化装置及びオーディオ符号化方法を提供することにある。

本発明のオーディオ符号化装置は、
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号から電力変動比を算出する電力算出手段と、
前記入力信号から予測利得変動比を算出する算出手段と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定手段とを備える。

また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が、
前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合以外の場合に、長ブロックによる符号化を選択する。

また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が用いる符号化する際のブロック長を判定するための閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える。

また、本発明のオーディオ符号化装置は、
前記閾値決定手段が、
前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前記閾値を初期値よりも大きな値に設定する。

また、本発明のオーディオ符号化装置は、
前記算出手段が、
前記電力算出手段が電力を算出するブロックを所定数用いて１つのブロックとし、該１つのブロックの前記予測利得変動比を算出する。

また、本発明のオーディオ符号化装置は、
前記電力算出手段が、
前記算出手段が予測利得を算出するブロックを所定数用いて１つのブロックとし、該１つのブロックの前記電力変動比を算出する。

また、本発明のオーディオ符号化装置は、
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、
前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号から電力変動比を算出する電力算出手段と、
前記入力信号から予測利得変動比を算出する算出手段と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定手段と、
前記ブロック長判定手段により長ブロックによる符号化が選択された場合は、長ブロック単位で入力信号を離散コサイン変換して第１の係数を求める第１の変換手段と、
前記ブロック長判定手段により短ブロックによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第２の係数を求める第２の変換手段と、
前記ブロック長判定手段の判定結果に応じて前記第１の係数又は前記第２の係数を第３の係数として選択する選択手段と、
前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
前記マスキング閾値に従って前記第３の係数をスペクトル量子化して第１の符号を求める量子化手段と、
前記第１の符号をハフマン符号化して第２の符号を求めるハフマン符号化手段と、
前記第２の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結果に基づいてビットストリームの出力を指示する量子化制御手段と、
前記第２の符号からビットストリームを生成し、前記量子化制御手段の指示に基づいてビットストリームを出力するビットストリーム生成手段とを備える。

また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が、
前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値より大きい場合以外の場合は長ブロックによる符号化を選択する。

また、本発明のオーディオ符号化装置は、
前記閾値決定手段が、
前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前記閾値を初期値よりも大きい値に設定する。

さらに、本発明のオーディオ符号化方法は、
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化方法において、
前記入力信号から電力変動比を算出する電力算出工程と、
前記入力信号から予測利得変動比を算出する算出工程と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定工程とを備える。

また、本発明のオーディオ符号化方法は、
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、
前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化方法において、
前記入力信号から電力変動比を算出する電力算出工程と、
前記入力信号から予測利得変動比を算出する算出工程と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定工程と、
前記ブロック長判定工程において長ブロックによる符号化が選択された場合は、長ブロック単位で入力信号を離散コサイン変換して第１の係数を求める第１の変換工程と、
前記ブロック長判定工程において短ブロックによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第２の係数を求める第２の変換工程と、
前記ブロック長判定工程の判定結果に応じて前記第１の係数又は前記第２の係数を第３の係数として選択する選択工程と、
前記入力信号からマスキング閾値を求める心理聴覚分析工程と、
前記マスキング閾値に従って前記第３の係数をスペクトル量子化して第１の符号を求める量子化工程と、
前記第１の符号をハフマン符号化して第２の符号を求めるハフマン符号化工程と、
前記第２の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結果に基づいてビットストリームの出力を指示する量子化制御工程と、
前記第２の符号からビットストリームを生成し、前記量子化制御工程における指示に基づいてビットストリームを出力するビットストリーム生成工程とを備える。

本発明のオーディオ符号化装置及びオーディオ符号化方法は、電力変動比と予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定する。そのため、本発明のオーディオ符号化装置及びオーディオ符号化方法は、長ブロックによる符号化と短ブロックによる符号化との双方を行う必要が無くなる。そのため、本発明のオーディオ符号化装置及びオーディオ符号化方法は、処理量を軽減することができると共に、電力変動比と予測利得変動比との双方を用いて符号化するブロック長の判定を行っているため、より適切なブロック長による符号化を行うことができる。

また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、ブロック長判定に用いるブロック長判定用の閾値を、ブロック長の判定結果に応じて変化させることにより、例えば、短ブロックによる符号化が頻繁に選択されることを防止でき、出力される音の音質の低下を軽減することができる。

また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、電力を算出するブロックを所定数用いて１つのブロックとし、この１つのブロックの予測利得変動比を算出することにより、処理量を軽減することができる。

また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、予測利得を算出するブロックを所定数用いて１つのブロックとし、この１つのブロックの電力変動比を算出することにより、処理量を軽減することができる。

以上のように、本発明によれば、処理量を軽減しつつ、ブロック長を適切に選択することが可能なオーディオ符号化装置及びオーディオ符号化方法を提供することができる。

本発明のオーディオ符号化装置の概要図である。本発明のオーディオ符号化装置で用いる長ブロックと短ブロックの一例の概念図である。本発明のオーディオ符号化装置における、予測利得変動比の算出方法の概念図である。本発明のオーディオ符号化装置の第１の実施形態の構成図である。本発明のオーディオ符号化装置の第１の実施形態が行うブロック長判定方法の動作のフローチャートである。本発明のオーディオ符号化装置の第２の実施形態の構成図である。本発明のオーディオ符号化装置の第２の実施形態の閾値決定部における、閾値制御の動作を示すグラフである。本発明のオーディオ符号化装置の第３の実施形態において、予測利得変動比と電力変動比とを求める方法の概念図である。本発明のオーディオ符号化装置の第４の実施形態における、電力変動比の算出方法を示す概念図である。第１の従来技術である、ＭＰＥＧ−２ＡＡＣのエンコーダの構成を示す構成図である。プリエコーの例を示す概略図である。第２の従来技術の構成を示す構成図である。第２の従来技術においてフレームを短ブロックに分割する場合の例を示す概念図である。入力信号、電力変動比及び予測利得変動比の例を示すグラフである。

符号の説明

１０１フレーム化部
１０２電力算出部
１０３算出部
１０４ブロック長判定部
１０５選択器
１０６長ブロック用のＭＤＣＴ変換部
１０７短ブロック用のＭＤＣＴ変換部
１０８選択器
１０９心理聴覚分析部
１１０量子化部
１１１ハフマン符号化部
１１２ビットストリーム生成部
１１３量子化制御部
４０１フレーム化部
４０２電力算出部
４０３自己相関算出部
４０４ｋパラメータ算出部
４０５予測利得算出部
４０６予測利得変動比算出部
４０７ブロック長判定部
４０８選択器
４０９長ブロック用のＭＤＣＴ変換部
４１０短ブロック用のＭＤＣＴ変換部
４１１選択器
４１２心理聴覚分析部
４１３量子化部
４１４ハフマン符号化部
４１５ビットストリーム生成部
４１６量子化制御部
６０１フレーム化部
６０２電力算出部
６０３自己相関算出部
６０４ｋパラメータ算出部
６０５予測利得算出部
６０６予測利得変動比算出部
６０７ブロック長判定部
６０８閾値決定部
６０９選択器
６１０長ブロック用のＭＤＣＴ変換部
６１１短ブロック用のＭＤＣＴ変換部
６１２選択器
６１３心理聴覚分析部
６１４量子化部
６１５ハフマン符号化部
６１６ビットストリーム生成部
６１７量子化制御部

（本発明の概要）
以下、図面を参照して本発明を実施するための最良の形態について説明する。まず、本発明のオーディオ符号化装置及びオーディオ符号化方法の概要について説明する。図１は、本発明のオーディオ符号化装置の概要図である。以下の説明は、本発明のオーディオ符号化方法の概要の説明も兼ねる。図１において、フレーム化部１０１は、入力信号を、所定のサンプル数からなる入力信号フレーム（長ブロック）に分割する。次に、長ブロック用のＭＤＣＴ変換部１０６、短ブロック用のＭＤＣＴ変換部１０７、電力算出部１０２及び算出部１０３は、１フレームを長ブロックよりも更に短い短ブロックに分割する。図２は、本発明のオーディオ符号化装置で用いる長ブロックと短ブロックの一例の概念図である。図２は、１フレーム（長ブロック）を４つ短ブロックに分割する場合を示している。以下では、図２に示される例を元に説明する。しかし、本発明は、１フレームをｎ個（ｎ＞０）に分割する場合でも同様に実施できる。

（１）電力算出部１０２は、短ブロック毎に入力信号電力Ｐ（１）、Ｐ（２）、Ｐ（３）、Ｐ（４）を求める。次に、電力算出部１０２は、隣接するブロック間の電力変動比Δ_P（１，２）、Δ_P（２，３）、Δ_P（３，４）を求める。ここで、Δ_P（ｉ，ｊ）は短ブロックｉと短ブロックｊの間の電力変動比であり、前述の式（１）で求められる。

（２）次に、算出部１０３は、短ブロックの入力信号に対してＬＰＣ分析（線形予測分析法）を実行してｋパラメータを求める。図３は、本発明のオーディオ符号化装置における、予測利得変動比の算出方法の概念図である。本発明では、ｋパラメータの算出方法は任意である。しかし、本発明は、例えば入力信号から自己相関関数を求め、レビンソンアルゴリズム等の公知の方法により自己相関関数からｋパラメータを算出する方法を用いることができる。

（３）次に、算出部１０３は、短ブロックｉから求めたｋパラメータｋ（ｉ，ｍ），（ｍ＝１，・・・，ｐ）から、次式により予測利得Ｇ（ｉ）を求める。ここで、ｐは予測次数である。

（４）次に、算出部１０３は、短ブロックｉ、ｊから求めた予測利得Ｇ（ｉ）、Ｇ（ｊ）から次式により予測利得変動比Δ_G（ｉ，ｊ）を求める。

（５）次に、電力変動比Δ_P（ｉ，ｊ）はブロック長判定部１０４に入力する。また、予測利得変動比Δ_G（ｉ，ｊ）はブロック長判定部１０４に入力する。そして、ブロック長判定部１０４は、長ブロックと短ブロックとのどちらで量子化するかを判定する。ブロック長判定部１０４による判定方法は、以下の方法を用いることができる。なお、以下の説明において、ブロック長判定部が長ブロックを選択するとは、ブロック長判定部が、長ブロックによる符号化を選択することを意味する。同様に、ブロック長判定部が短ブロックを選択するとは、ブロック長判定部が、短ブロックによる符号化を選択することを意味する。すなわち、ブロック長判定部がブロックを選択するとは、ブロック長判定部が、そのブロックによる符号化を選択することを意味する。

Ａ）ブロック長判定部１０４は、電力変動比に対する閾値ＴＨ_Pと、予測利得変動比ＴＨ_Gを設定する。
Ｂ）次に、ブロック長判定部１０４は、Δ_P（１，２）、Δ_P（２，３）、Δ_P（３，４）の中で閾値ＴＨ_Pよりも大きいものが一つでもあれば短ブロックを選択し、なければ次のＣ）へ進む。
Ｃ）次に、ブロック長判定部１０４は、Δ_G（１，２）、Δ_G（２，３）、Δ_G（３，４）の中で閾値ＴＨ_Gよりも大きいものが一つでもあれば短ブロックを選択し、なければ長ブロックを選択する。

つまり、ブロック長判定部１０４は、フレーム内の電力変動比と予測利得変動比とのどちらか一方があらかじめ設定した閾値を越えた場合のみ短ブロックを選択し、それ以外は長ブロックを選択する。

（６）ブロック長判定部１０４が長ブロックを選択した場合、その判定結果は選択器１０５及び選択器１０８に出力される。選択器１０５及び選択器１０８は、ブロック長判定部１０４の判定結果に基づいてブロックを選択をする。そのため、ブロック長判定部１０４が長ブロックを選択した場合、選択器１０５及び選択器１０８は、長ブロックを選択する。

そして、フレーム化部１０１から出力された入力信号が長ブロック用のＭＤＣＴ変換部１０６へ入力する。そして、長ブロック用のＭＤＣＴ変換部１０６は、ＭＤＣＴ１を出力する。

また、ブロック長判定部１０４が短ブロックを選択した場合、その判定結果は選択器１０５及び選択器１０８に出力される。そして、選択器１０５及び選択器１０８は、短ブロックを選択する。

そして、フレーム化部１０１から出力された入力信号が短ブロック用のＭＤＣＴ変換部１０７へ入力する。そして、短ブロック用のＭＤＣＴ変換部１０７は、短ブロックの数だけＭＤＣＴ係数を出力する。つまり、１フレームが４つの短ブロックに分割される場合は、短ブロック用のＭＤＣＴ変換部１０７は、４組のＭＤＣＴ係数を出力する。

（７）次に、心理聴覚分析部１０９は、入力した入力信号から、マスキング閾値を求める。ここで、心理聴覚分析部１０９は、ブロック長判定部１０４が長ブロックを選択した場合、長ブロック用のマスキング閾値を求める。また、心理聴覚分析部１０９は、ブロック長判定部１０４が短ブロックを選択した場合、短ブロック用のマスキング閾値を求める。

本発明において、マスキング閾値の算出方法は、任意の方法を用いることができる。例えば、心理聴覚分析部１０９は、非特許文献１に開示されている方法を用いることができる。つまり、心理聴覚分析部１０９は、入力信号に対してＦＦＴ分析を行う。そして、心理聴覚分析部１０９は、ＦＦＴスペクトルを求める。そして、心理聴覚分析部１０９は、ＦＦＴスペクトルからマスキング閾値を算出する。

（８）次に、ＭＤＣＴ係数とマスキング閾値とは、量子化部１１０へ入力される。量子化部１１０は、入力されたマスキング閾値に従って周波数バンド毎にＭＤＣＴ係数を量子化する。そして、量子化部１１０は、ＭＤＣＴ係数が量子化された量子化符号１を出力する。

（９）次に、量子化符号１は、ハフマン符号化部１１１へ入力する。そして、ハフマン符号化部１１１は、量子化符号１を、量子化符号１より更に冗長度が除去された量子化符号２に変換する。

（１０）次に、ハフマン符号化部１１１は、量子化符号２を量子化制御部１１３に出力する。量子化制御部１１３は、入力した量子化符号２から最終的に出力されるビットストリームの総ビット数を計算する。なお、図１において、点線で囲まれた範囲は、量子化制御部１１３が制御可能な範囲である。

（１１）量子化制御部１１３は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理（８）〜処理（１０）を繰り返すように、量子化部１１０と、ハフマン符号化部１１１とを制御する。また、量子化制御部１１３は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部１１１からビットストリーム生成部１１２に対して量子化符号２を出力させる。そして、量子化制御部１１３は、ビットストリーム生成部１１２に対して、ビットストリームを出力するように制御する。これにより、図１に示されるオーディオ符号化装置は、量子化を実現する。なお、本発明での量子化のプロセスは、前述の従来技術の欄で説明した、ＡＡＣ方式の量子化プロセスの詳細と同様であるため、その詳細な説明を省略する。

次に、図面を参照して本発明の実施形態について説明する。以下の実施の形態の構成は例示であり、本発明は実施の形態の構成に限定されない。また、以下の各実施形態の説明は、オーディオ信号を符号化するオーディオ符号化装置を例に用いて説明する。なお、以下に説明する本発明のオーディオ符号化装置の各実施形態の説明は、本発明のオーディオ符号化方法の各実施形態の説明を兼ねる。

（第１の実施形態）
図４は、本発明のオーディオ符号化装置の第１の実施形態の構成図である。図４において、フレーム化部４０１は、入力した信号を所定のサンプル数からなる入力信号フレーム（長ブロック）に分割する。

次に、短ブロック用のＭＤＣＴ変換部４１０、電力算出部４０２及び自己相関算出部４０３は、入力した１フレームを短ブロックに分割する。本実施形態におけるフレームの分割について前述の図２を参照して説明する。図２は、長ブロックと短ブロックの例を示す概念図である。図２に示される例は、１フレーム（長ブロック）を４つの短ブロックに分割する。以下では、この例を元に説明する。しかし、本実施形態は、１フレームをｎ個（ｎは非負の整数）に分割する場合でも同様に成り立つ。

（１）まず、電力算出部４０２は、短ブロック毎に入力信号電力Ｐ（１）、Ｐ（２）、Ｐ（３）、Ｐ（４）を求める。そして、電力算出部４０２は、隣接するブロック間の電力変動比Δ_P（１，２）、Δ_P（２，３）、Δ_P（３，４）を求める。ここで、Δ_P（ｉ，ｊ）は短ブロックｉと短ブロックｊとの間の電力変動比である。この電力変動比は、前述の式（１）で求められる。

（２）次に、自己相関算出部４０３は、短ブロックの入力信号から自己相関を求める。そして、自己相関算出部４０３は、この自己相関をｋパラメータ算出部４０４に出力する。

次に、ｋパラメータ算出部４０４は、自己相関関数からレビンソンアルゴリズム等の公知の方法によりｋパラメータを算出する。なお、ｋパラメータ算出部４０４が、自己相関関数からＬＰＣ係数を求め、ｋパラメータ算出部４０４が、ＬＰＣ係数をｋパラメータに変換するとしても良い。

（３）そして、予測利得算出部４０５は、短ブロックｉから求めたｋパラメータｋ（ｉ，ｍ），（ｍ＝１，・・・，ｐ）から次式により予測利得Ｇ（ｉ）を求める。ここで、ｐは予測次数である。この予測利得Ｇ（ｉ）は、予測利得変動比算出部４０６に入力する。

（４）次に、予測利得変動比算出部４０６は、短ブロックｉ、短ブロックｊで求めた予測利得Ｇ（ｉ）、Ｇ（ｊ）から、次式で示される予測利得変動比Δ_G（ｉ，ｊ）を求める。ここで、自己相関算出部４０３、ｋパラメータ算出部４０４、予測利得算出部４０５及び予測利得変動比算出部４０６は、図１に示される算出部１０３の機能の一部であるとして良い。

（５）次に、電力変動比Δ_P（ｉ，ｊ）と、予測利得変動比Δ_G（ｉ，ｊ）とは、ブロック長判定部４０７へ入力する。そして、ブロック長判定部４０７は、長ブロックと短ブロックとのどちらで量子化するかを判定する。ブロック長判定部４０７が用いる判定方法は、以下の方法を用いることができる。以下、ブロック長判定部が行う判定方法について、図５を参照して説明する。図５は、本発明のオーディオ符号化装置の第１の実施形態が行うブロック長判定方法の動作のフローチャートである。なお、以下の説明では、前述のように、ブロック長判定部が長ブロックを選択するとは、ブロック長判定部が、長ブロックによる符号化を選択することを意味する。同様に、ブロック長判定部が短ブロックを選択するとは、ブロック長判定部が、短ブロックによる符号化を選択することを意味する。すなわち、ブロック長判定部がブロックを選択するとは、ブロック長判定部が、そのブロックによる符号化を選択することを意味する。

（Ａ）ブロック長判定部４０７は、電力変動比に対する閾値ＴＨ_Pと、予測利得変動比に対する閾値ＴＨ_Gを設定する。
（Ｂ）ブロック長判定部４０７は、Δ_P（１，２）、Δ_P（２，３）、Δ_P（３，４）の中で閾値ＴＨ_Pよりも大きいものが一つでもあれば短ブロックを選択し（Ｓ５０１，Ｓ５０２，Ｓ５０３，Ｓ５０８）、なければ（Ｃ）へ進む。

（Ｃ）ブロック長判定部４０７は、Δ_G（１，２）、Δ_G（２，３）、Δ_G（３，４）の中で閾値ＴＨ_Gよりも大きいものが一つでもあれば短ブロックを選択し（Ｓ５０４，Ｓ５０５，Ｓ５０６，Ｓ５０８）、なければ長ブロックを選択する（Ｓ５０７）。

つまり、ブロック長判定部４０７は、フレーム内の電力変動比と予測利得変動比とのどちらか一方があらかじめ設定した閾値を越えた場合のみ、短ブロックを選択し、それ以外は長ブロックを選択する。

（６）ブロック長判定部４０７の判定結果は、選択器４０８及び選択器４１１に入力する。各選択器４０８及び選択器４１１は、ブロック長判定部４０７の判定結果に基づいて、用いるブロック長を選択する。

ブロック長判定部４０７が、長ブロックを選択した場合は、入力信号が長ブロック用のＭＤＣＴ変換部４０９へ入力する。そして、長ブロック用のＭＤＣＴ変換部４０９は、ＭＤＣＴ係数を出力する。

また、ブロック長判定部４０７が短ブロックを選択した場合は、入力信号が短ブロック用のＭＤＣＴ変換部４１０へ入力する。そして、短ブロック用のＭＤＣＴ変換部４１０は、短ブロックの数分のＭＤＣＴ係数を出力する。つまり、１フレームが４つの短ブロックに分割される場合、短ブロック用のＭＤＣＴ変換部４１０は、４組のＭＤＣＴ係数を出力する。

（７）次に、心理聴覚分析部４１２は、入力した入力信号から、マスキング閾値を求める。心理聴覚分析部４１２には、フレーム化部４０１から出力された入力信号が入力する。ここで、心理聴覚分析部４１２は、ブロック長判定部４０７が長ブロックを選択した場合、長ブロック用のマスキング閾値を求める。また、心理聴覚分析部４１２は、ブロック長判定部４０７が短ブロックを選択した場合、短ブロック用のマスキング閾値を求める。

本実施形態において、マスキング閾値の算出方法は、任意の方法を用いることができる。例えば、心理聴覚分析部４１２は、非特許文献１に開示されている方法を用いることができる。つまり、心理聴覚分析部４１２は、入力信号に対してＦＦＴ分析を行う。そして、心理聴覚分析部４１２は、ＦＦＴスペクトルを求める。そして、心理聴覚分析部４１２は、ＦＦＴスペクトルからマスキング閾値を算出する。

（８）ＭＤＣＴ係数とマスキング閾値とは、量子化部４１３へ入力される。量子化部４１３は、入力されたマスキング閾値に従って周波数バンド毎にＭＤＣＴ係数を量子化する。量子化部４１３は、ＭＤＣＴ係数を量子化した量子化符号１を出力する。

（９）次に、量子化符号１は、ハフマン符号化部４１４へ入力する。そして、ハフマン符号化部４１４は、量子化符号１を、量子化符号１より更に冗長度が除去された量子化符号２に変換する。

（１０）次に、ハフマン符号化部４１４は、量子化符号２を量子化制御部４１６に出力する。量子化制御部４１６は、入力された量子化符号２から最終的に出力されるビットストリームの総ビット数を計算する。なお、図４において、点線で囲まれた範囲は、量子化制御部４１６が制御可能な範囲である。

（１１）量子化制御部４１６は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理（８）〜処理（１０）を繰り返すように、量子化部４１３と、ハフマン符号化部４１４とを制御する。また、量子化制御部４１６は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部４１４からビットストリーム生成部４１５に対して量子化符号２を出力させる。そして、量子化制御部４１５は、ビットストリーム生成部４１５に対して、ビットストリームを出力するように制御する。これにより、本実施形態は、量子化を実現する。なお、本実施形態での量子化のプロセスは、前述の従来技術の欄で説明した、ＡＡＣ方式の量子化プロセスの詳細と同様であるため、その詳細な説明を省略する。

なお、本実施形態では１フレームを４つの短ブロックに分割する場合を例に説明した。本発明は、１フレームを任意の個数（例えば、８ブロック）に分割する場合でも同様にして実現することができる。

以上説明の通り、本実施形態は、ＭＤＣＴ変換の前にブロック長を判定しているため、第１の従来技術に比べて少ない処理量で高品質なオーディオ信号の符号化が可能である。また、本実施形態は、電力変動比と予測利得変動比とを用いてブロック長の判定を行っているため、第２の従来技術よりもブロック長の判定が高精度であるため、第２の従来技術よりも高品質なオーディオ信号の符号化が可能である。

すなわち、本実施形態は、ＭＤＣＴ変換及び心理聴覚分析の前に、符号化を行うブロック長を判定する。そのため、本実施形態は、第１の従来技術に比べて少ない処理量で高品質な符号化が可能である。更に、本実施形態は、ブロック長判定手段において、電力変動比と予測利得変動比とを用いる。そのため、本実施形態は、第２の従来技術に比べてブロック長を精度良く判定することができる。

本実施形態の効果について、前述の図１４を用いてさらに詳細に説明する。図１４は、電力変動比と予測利得変動比との算出結果を示すグラフである。図１４の（ａ）に示される入力信号は、区間Ａでは電力変動比の値が０でほとんど変化していない（図１４の（ｂ））。これに対し、図１４の（ａ）に示される入力信号は、区間Ａでは予測利得変動比が大きく変動している（図１４の（ｃ））。

本実施形態は、電力変動比と予測利得変動比との両方を算出する。そして、本実施形態は、電力変動比と予測利得変動比とのどちらか一方が閾値を越えた場合に、短ブロックを選択する。そのため、本実施形態は、図１４に示される区間Ａのような入力信号でも精度良くブロック長を判定することができる。

なお、図１４に示される区間Ｂ、区間Ｃでは、予測利得変動比はほとんど変動しない。一方、図１４に示される区間Ｂ、区間Ｃでは、電力変動比が大きく変動する。したがって、本実施形態は、区間Ｂ、区間Ｃについても第２の従来技術と同様に信号の変化点を検出可能である。

（第２の実施形態）
図６は、本発明のオーディオ符号化装置の第２の実施形態の構成図である。本実施形態は、第１の実施形態と比較して、電力変動比に対する閾値ＴＨ_Pと予測利得変動比に対する閾値ＴＨ_Gとを動的に変化させる部分が異なる。それ以外の部分は第１の実施形態と共通であるので説明を省略する。

一般に、短ブロックはアタック音などの急激に変化する部分で選択される場合が多い。アタック音は、広い周波数範囲に渡ってＭＤＣＴスペクトルの振幅が大きい。そのため、アタック音は、符号化する場合に大量の量子化ビット数が必要になる。

連続して短ブロックが選択されると、量子化ビット数が不足して音質が極端に劣化する場合がある。そのため、低ビットレートでオーディオ信号を符号化するには、なるべく短ブロックが連続して選択されないように制御することが必要な場合がある。

そこで、本実施形態では、一度、短ブロックが選択された場合、その後一定時間の間は閾値ＴＨ_Pと閾値ＴＨ_Gとを大きくする。その結果、本実施形態では、できるだけ短ブロックが連続して選ばれないようにする。

ここで、本発明のオーディオ符号化装置の第２の実施形態の構成について説明する。本実施形態の構成は、図６に示される。そして、図６に示される各ブロックのうち、ブロック長判定部６０７及び閾値決定部６０８以外のブロックの動作は、図４に示される対応する各ブロックの動作と同様であるため、その詳細な説明を省略する。

すなわち、図６に示される、フレーム化部６０１の動作は図４に示されるフレーム化部４０１の動作と同様であり、電力算出部６０２の動作は図４に示される電力算出部４０２の動作と同様であり、自己相関算出部６０３の動作は図４に示される自己相関算出部４０３の動作と同様であり、ｋパラメータ算出部６０４の動作は図４に示されるｋパラメータ算出部４０４の動作と同様であり、予測利得算出部６０５の動作は図４に示される予測利得算出部４０５の動作と同様である。

さらに、予測利得変動比算出部６０６の動作は図４に示される予測利得変動比算出部４０６の動作と同様であり、選択器６０９の動作は図４に示される選択器４０８の動作と同様であり、長ブロック用のＭＤＣＴ変換部６１０の動作は図４に示される長ブロック用のＭＤＣＴ変換部４０９の動作と同様である。

また、短ブロック用のＭＤＣＴ変換部６１１の動作は図４に示される短ブロック用のＭＤＣＴ変換部４１０の動作と同様であり、選択器６１２の動作は図４に示される選択器４１１の動作と同様であり、心理聴覚分析部６１３の動作は図４に示される心理聴覚分析部４１２の動作と同様であり、量子化部６１４の動作は図４に示される量子化部４１３の動作と同様であり、ハフマン符号化部６１５の動作は図４に示されるハフマン符号化部４１４の動作と同様であり、ビットストリーム生成部６１６の動作は図４に示されるビットストリーム生成部４１５の動作と同様であり、量子化制御部６１７の動作は図４に示される量子化制御部４１６の動作と同様である。なお、図６において、点線で囲まれた範囲は、量子化制御部６１７が制御可能な範囲である。

他方、図６に示されるブロック長判定部６０７は、閾値決定部６０８において決定された閾値を受信する。また、ブロック長判定部６０７は、ブロック長の判定結果を、選択器６０９、選択器６１２及び閾値決定部６０８に出力する。閾値決定部６０８は、ブロック長判定部６０７から出力された判定結果に基づいて、閾値を決定する。すなわち、閾値決定部６０８は、ブロック長判定部６０７から出力された判定結果が短ブロックを選択する判定結果である場合は、増加した閾値の値を出力する。また、ブロック長判定部６０７は、閾値決定部６０８から受信した閾値に基づいて、判定処理を行う。閾値が変動しうる点以外は、ブロック長判定部６０７における判定処理は、前述の図５に示される場合と同様であるため、その詳細な説明を省略する。また、閾値決定部６０８は、図１に示される算出部１０３の機能の一部であるとして良い。

図７は、本発明のオーディオ符号化装置の第２の実施形態の閾値決定部における、閾値制御の動作を示すグラフである。図７に示されるグラフでは、短ブロックが選択されると、閾値ＴＨ_GはＴＨ_G＋αに変更されている。ここでα＞０とする。同様に、短ブロックが選択されると、閾値ＴＨ_PはＴＨ_P＋βに変更される。ここで、β＞０とする。

その後、一定時間Δｔが経過すると、閾値は元の値（初期値）ＴＨ_G、ＴＨ_Pに変更される。つまり、本実施形態では、一度、短ブロックが選択された場合、その後一定時間は閾値ＴＨ_Pと閾値ＴＨ_Gとを大きくして、できるだけ短ブロックが連続して選ばれないようにする。

以上の説明の通り、本実施形態は、前述の第１の実施形態と同様の効果を得ることができる。さらに、本実施形態は、一度短ブロックが選択された場合に、その後一定時間は短ブロックが選ばれないように閾値を制御する。そのため、本実施形態では、連続して短ブロックが選択されることにより生じる音質劣化を軽減することができる。

なお、本実施形態の変形例として、以下の方法を実施することもできる。以下の変形例でも、上記本発明のオーディオ符号化装置の第２の実施形態と同様の効果を得ることができる。
（１）本実施形態の変形例は、短ブロックが選ばれた後、一定時間は短ブロックを選択しない。
（２）本実施形態の変形例は、短ブロックが選ばれた後、α又はβを十分に大きくする。ただし、本実施形態の変形例は、ＴＨ_G又はＴＨ_P範囲をあらかじめ調べておく必要がある。
（３）本実施形態の変形例は、短ブロックが選択され、閾値がＴＨ_G＋α又はＴＨ_P＋βとなっている場合に、再度短ブロックが選択された場合、閾値を、ＴＨ_G＋α＋α又はＴＨ_P＋β＋βとする。ただし、本実施形態の変形例は、一定時間後は、閾値を元の値に戻す。

（第３の実施形態）
次に、本発明のオーディオ符号化装置の第３の実施形態について説明する。本実施形態の構成は、図４に示される第１の実施形態と同じである。しかし、第３の実施形態は、予測利得変動比をフレーム単位で求める点が前述の第１の実施形態とは異なる。すなわち、本実施形態では、電力を算出するブロックを所定数用いて１つのブロックとし、この１つのブロックの予測利得変動比を算出する。

第１の実施形態は、短ブロック毎にＬＰＣ分析を行う。そのため、第１の実施形態は、精密に予測利得変動比を算出できる。しかし、第１の実施形態では、ＬＰＣ分析の実行回数が多くなるため処理量も増える。本実施形態では１つの長ブロックにつき１回のＬＰＣ分析を行う。そのため、本実施形態は、第１の実施形態に比べると演算量をより少なくすることができる。

図８は、本発明のオーディオ符号化装置の第３の実施形態において、予測利得変動比と電力変動比とを求める方法の概念図である。第１の実施形態は、短ブロック毎にＬＰＣ分析を行って得られたｋパラメータから予測利得を求める。そして、第１の実施形態は、１つ前の短ブロックで同様にして求めた予測利得との比により予測利得変動比を算出する。

これに対し、本実施形態は、図８の（ａ）に示されるように、１つの長ブロック（第ｎフレーム）の入力信号に対してＬＰＣ分析を行ってｋパラメータを求める。すなわち、ｋパラメータ算出部が、１つの長ブロック（第ｎフレーム）の入力信号に対してＬＰＣ分析を行ってｋパラメータを求める。そして、本実施形態は、ｋパラメータから予測利得Ｇ（ｎ）を算出する。次に、本実施形態は、１つ前のフレーム（第ｎ−１フレーム目）で同様にして求めた予測利得電力Ｇ（ｎ−１）とＧ（ｎ）とを用いて、次式により予測利得変動比Δ_G（ｎ）を算出する。

一方、本実施形態は、図８の（ｂ）に示されるように、第１の実施形態と同様に、短ブロック毎に電力変動比Δ_P（１，２）、Δ_P（２，３）、Δ_P（３，４）を算出する。次に、本実施形態は、算出された予測利得変動比と電力変動比とから最適なブロック長を決定する。以下、この決定動作について説明する。

（１）ブロック長判定部は、Δ_G（ｎ）があらかじめ決められた閾値ＴＨ_Gよりも大きければ短ブロックを選択する。
（２）次に、ブロック長判定部は、Δ_P（１，２）、Δ_P（２，３）、Δ_P（３，４）の中で、一つでもあらかじめ決められた閾値ＴＨ_Pよりも大きいものがあれば短ブロックを選択する

（３）そして、ブロック長判定部は、（１）又は（２）のいずれか一方で短ブロックが選択されなかった場合は長ブロックを選択する。本実施形態は、ブロック長を選択した後の構成と処理内容は第１の実施形態と共通である。そのため、本実施形態のブロック長を選択した後の構成と処理内容については、説明を省略する。

以上の説明の通り、本実施形態は、前述の本発明の第１の実施形態と同様の効果を得ることができる。さらに、本実施形態は、ＬＰＣ分析を長ブロックにつき１回だけ行うことにより、第１の実施形態に比べてより少ない処理量でブロック長を選択することができる。ただし、本実施形態では、予測利得を算出するブロックとして、１フレームのブロックを用いる場合に限定されるものではなく、電力を算出するブロックを任意の数用いて１つのブロックとし、この１つのブロックの予測利得を算出するとしても良い。この場合でも、本実施形態は、上記と同様の効果を得ることができる。

（第４の実施形態）
次に、本発明のオーディオ符号化装置の第４の実施形態について説明する。本実施形態の構成は第１の実施形態の構成と同じある。しかし、本実施形態は、１フレームを８つの短ブロックに分割して行う電力変動比の計算方法が第１の実施形態と異なる。すなわち、本実施形態は、予測利得を算出するブロックを所定数用いて１つのブロックとし、この１つのブロックの電力変動比を算出する。

図９は、本発明のオーディオ符号化装置の第４の実施形態における、電力変動比の算出方法を示す概念図である。図９に示されるように、本実施形態は、１フレームを８つの短ブロックに分割し、電力変動比を計算する。ただし、本実施形態は、第１の実施形態のように１個の短ブロックについて１個の電力変動比を求めるのではない。すなわち、本実施形態は、隣接する複数の短ブロックから電力変動比を求める点が、第１の実施形態と異なる。本実施形態の電力変動比の算出方法を以下に示す。

本実施形態では、第１及び第２の短ブロックから電力Ｐ（１）を求める。また、本実施形態は、第３及び第４の短ブロックから電力Ｐ（２）を求める。また、本実施形態は、第５及び第６の短ブロックから電力Ｐ（３）を求める。また、本実施形態は、第７及び第８の短ブロックから電力Ｐ（４）を求める。

次に、本実施形態は、Ｐ（１）とＰ（２）とから電力変動比Δ_P（１，２）を求める。また、本実施形態は、Ｐ（２）とＰ（３）とから電力変動比Δ_P（２，３）を求める。また、本実施形態は、Ｐ（３）とＰ（４）とからから電力変動比Δ_P（３，４）を求める。

上記のように、本実施形態は、２つの短ブロックの電力を求める点が第１の実施形態とは異なる。すなわち、第１の実施形態では、予測利得変動比が８個、電力変動比が８個、計算されるのに対して、本実施形態では、予測利得変動比が８個、電力変動比が４個しか計算されない。つまり、本実施形態では、１フレーム内で算出する予測利得変動比と電力変動比との数が異なってもよい。本実施形態の、上述の部分以外については第１の実施形態と同じであるので説明を省略する。

このように、本実施形態は、前述の本発明の第１の実施形態と同様の効果を得ることができる。さらに、本実施形態は、２つの短ブロックの電力を求めることにより、電力の算出処理の計算量を、第１の実施形態に比べて軽減することができる。なお、本実施形態は、電力を算出するブロックとして、短ブロックの２つを用いる場合に限定されるのではなく、３つ以上の任意の数の短ブロックを用いて電力を算出するとしても良い。この場合でも、上記の効果と同様の効果を得ることができる。

Claims

入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出手段と、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出手段と、
前記短ブロック間毎の電力変動比と前記短ブロック間毎の予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定手段とを備え、
前記ブロック長判定手段は、前記短ブロック間毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、そうでなければ長ブロックによる符号化を選択する
オーディオ符号化装置。
前記ブロック長判定手段が用いる符号化する際の前記閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える
請求項１記載のオーディオ符号化装置。
前記閾値決定手段は、前記ブロック長判定手段の判定結果が短ブロックモードによる符号化を表す場合に、前記閾値を初期値よりも大きな値に設定する
請求項２に記載のオーディオ符号化装置。
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出手段と、
前記入力信号が分割された複数のフレームから隣接するフレーム間毎の予測利得変動比
を算出する算出手段と、
前記短ブロック間毎の電力変動比及び前記フレーム間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と
を備えるオーディオ符号化装置。
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号が分割された複数のフレームから隣接するフレーム間毎の電力変動比を算出する電力算出手段と、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出手段と、
前記フレーム毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と
を備えるオーディオ符号化装置。
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出手段と、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出手段と、
前記短ブロック間毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と、
前記ブロック長判定手段により長ブロックモードによる符号化が選択された場合には、長ブロック単位で入力信号を離散コサイン変換して第１の係数を求める第１の変換手段と、
前記ブロック長判定手段により短ブロックモードによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第２の係数を求める第２の変換手段と、
前記ブロック長判定手段の判定結果に応じて前記第１の係数又は前記第２の係数を第３の係数として選択する選択手段と、
前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
前記マスキング閾値に従って前記第３の係数をスペクトル量子化して第１の符号を求める量子化手段と、
前記第１の符号をハフマン符号化して第２の符号を求めるハフマン符号化手段と、
前記第２の符号からビットストリームを生成し、前記量子化制御手段の指示に基づいてビットストリームを出力するビットストリーム生成手段と
を備えるオーディオ符号化装置。
前記ブロック長判定手段が用いる符号化する際の前記閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える
請求項６に記載のオーディオ符号化装置。
前記閾値決定手段は、前記ブロック長判定手段の判定結果が短ブロックモードによる符号化を表す場合に、前記閾値を初期値よりも大きな値に設定する
請求項７に記載のオーディオ符号化装置。
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出手段と、
前記入力信号が分割された複数のフレームから隣接するフレーム間毎の予測利得変動比を算出する算出手段と、
前記短ブロック間毎の電力変動比及び前記フレーム間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と、
前記ブロック長判定手段により長ブロックモードによる符号化が選択された場合には、長ブロック単位で入力信号を離散コサイン変換して第１の係数を求める第１の変換手段と、
前記ブロック長判定手段により短ブロックモードによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第２の係数を求める第２の変換手段と、
前記ブロック長判定手段の判定結果に応じて前記第１の係数又は前記第２の係数を第３の係数として選択する選択手段と、
前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
前記マスキング閾値に従って前記第３の係数をスペクトル量子化して第１の符号を求める量子化手段と、
前記第１の符号をハフマン符号化して第２の符号を求めるハフマン符号化手段と、
前記第２の符号からビットストリームを生成し、前記量子化制御手段の指示に基づいてビットストリームを出力するビットストリーム生成手段と
を備えるオーディオ符号化装置。
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号が分割された複数のフレームから隣接するフレーム間毎の電力変動比を算出する電力算出手段と、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出手段と、
前記フレーム毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定手段と、
前記ブロック長判定手段により長ブロックモードによる符号化が選択された場合には、長ブロック単位で入力信号を離散コサイン変換して第１の係数を求める第１の変換手段と、
前記ブロック長判定手段により短ブロックモードによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第２の係数を求める第２の変換手段と、
前記ブロック長判定手段の判定結果に応じて前記第１の係数又は前記第２の係数を第３の係数として選択する選択手段と、
前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
前記マスキング閾値に従って前記第３の係数をスペクトル量子化して第１の符号を求める量子化手段と、
前記第１の符号をハフマン符号化して第２の符号を求めるハフマン符号化手段と、
前記第２の符号からビットストリームを生成し、前記量子化制御手段の指示に基づいてビットストリームを出力するビットストリーム生成手段と
を備えるオーディオ符号化装置。
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化方法において、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出工程と、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出工程と、
前記短ブロック間毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定工程と
を備えるオーディオ符号化方法。
入力信号を一定のサンプル数からなるフレームに分割し、１フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して複数の短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化方法において、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の電力変動比を算出する電力算出工程と、
前記入力信号が分割された前記複数の短ブロックから隣接する短ブロック間毎の予測利得変動比を算出する算出工程と、
前記短ブロック間毎の電力変動比及び前記短ブロック間毎の予測利得変動比のいずれかがあらかじめ決められた閾値より大きい場合に短ブロックモードによる符号化を選択し、そうでなければ長ブロックモードによる符号化を選択するブロック長判定工程と
前記ブロック長判定工程において長ブロックモードによる符号化が選択された場合には、長ブロック単位で入力信号を離散コサイン変換して第１の係数を求める第１の変換工程と、
前記ブロック長判定工程において短ブロックモードによる符号化が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第２の係数を求める第２の変換工程と、
前記ブロック長判定工程の判定結果に応じて前記第１の係数又は前記第２の係数を第３の係数として選択する選択工程と、
前記入力信号からマスキング閾値を求める心理聴覚分析工程と、
前記マスキング閾値に従って前記第３の係数をスペクトル量子化して第１の符号を求める量子化工程と、
前記第１の符号をハフマン符号化して第２の符号を求めるハフマン符号化工程と、
前記第２の符号からビットストリームを生成し、前記量子化制御工程における指示に基づいてビットストリームを出力するビットストリーム生成工程と
を備えるオーディオ符号化方法。