JP6126006B2

JP6126006B2 - 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法

Info

Publication number: JP6126006B2
Application number: JP2013537355A
Authority: JP
Inventors: センチョンコク; 則松　武志; 武志則松
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2012-05-11
Filing date: 2013-05-08
Publication date: 2017-05-10
Anticipated expiration: 2033-05-08
Also published as: EP2849180B1; CN103548080A; CN103548080B; WO2013168414A1; US20140074489A1; JPWO2013168414A1; EP2849180A1; US9489962B2; EP2849180A4

Description

本発明は、コーデックを切替可能な音信号ハイブリッドエンコーダ及び音信号ハイブリッドデコーダに関する。

ハイブリッドコーデックは、オーディオコーデックとスピーチコーデックとの利点を組み合わせたコーデックである。ハイブリッドコーデックによれば、スピーチ信号（音声信号）主体のコンテンツとオーディオ信号（音響信号）主体のコンテンツが混合した音信号を、オーディオコーデックとスピーチコーデックとを切替えることによりそれぞれに適した符号化方法により符号化することができる。したがって、ハイブリッドコーデックによれば、低ビットレートで安定した音信号の圧縮符号化が実現される。

また、ハイブリッドコーデックでは、コーデックの切替部分において生じるエイリアシングを抑制するために、符号化側でＡＣ（ＡｌｉａｓｉｎｇＣａｎｃｅｌ）信号を生成する方法が知られている。

Ｃａｒｏｔ，Ａｌｅｘａｎｄｅｒｅｔａｌ．： "ＮｅｔｗｏｒｋｅｄＭｕｓｉｃＰｅｒｆｏｒｍａｎｃｅ：ＳｔａｔｅｏｆｔｈｅＡｒｔ"，ＡＥＳ３０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ（１５−１７Ｍａｒｃｈ２００７）．Ｓｃｈｕｌｌｅｒ，Ｇｅｒａｌｄｅｔａｌ．： "ＮｅｗＦｒａｍｅｗｏｒｋｆｏｒＭｏｄｕｌａｔｅｄＰｅｒｆｅｃｔＲｅｃｏｎｓｔｒｕｃｔｉｏｎＦｉｌｔｅｒＢａｎｋｓ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．４４，ｐｐ．１９４１−１９５４（Ａｕｇｕｓｔ１９９６）．Ｓｃｈｎｅｌｌ，Ｍａｒｋｕｓ，ｅｔａｌ．： "ＭＰＥＧ−４ＥｎｈａｎｃｅｄＬｏｗＤｅｌａｙＡＡＣ − ａｎｅｗｓｔａｎｄａｒｄｆｏｒｈｉｇｈｑｕａｌｉｔｙｃｏｍｍｕｎｉｃａｔｉｏｎ"，ＡＥＳ１２５ｔｈＣｏｎｖｅｎｔｉｏｎ（２−５Ｏｃｔｏｂｅｒ２００８）．Ｖａｌｉｎ，Ｊｅａｎ−Ｍａｒｃ，ｅｔａｌ．： "ＡＦｕｌｌ−ｂａｎｄｗｉｄｔｈＡｕｄｉｏＣｏｄｅｃｗｉｔｈＬｏｗＣｏｍｐｌｅｘｉｔｙａｎｄＶｅｒｙＬｏｗＤｅｌａｙ"．

ハイブリッドコーデックは、スピーチ信号とオーディオ信号が混在するようなコンテンツに対して効率よく符号化できる。このため、ハイブリッドコーデックは、オーディオブック、放送システム、携帯型メディアデバイス、携帯通信端末(たとえば、スマートフォン、タブレット型コンピュータ)、テレビ会議装置およびネットワーク上の音楽演奏などのさまざまなアプリケーションに適用可能である。

ところが、ハイブリッドコーデックが、特にテレビ会議装置やネットワーク上の音楽演奏など、リアルタイム通信性能が重要なアプリケーションに対して適用される際には、符号化および復号処理時に生じるアルゴリズム遅延が大きな課題となる。

このようなアルゴリズム遅延を低減するために、例えば、フレームのサイズ（サンプル数）を小さくすることが考えられる。

しかしながら、フレームのサイズを小さくした場合、フレームの切り替え頻度が相対的に大きくなり、おのずとＡＣ信号の発生頻度も大きくなる。低ビットレートで高品質かつ低遅延なハイブリッドコーデックを実現するには、ＡＣ信号の符号量はなるべく抑制されることが望ましい。つまり、効率的にＡＣ信号を生成することが課題となる。

そこで、本発明は、効率的にＡＣ信号を生成することができる音信号ハイブリッドエンコーダ等を提供する。

本発明の一態様に係る音信号ハイブリッドエンコーダは、音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、前記フレームをＬＦＤ（ＬａｐｐｅｄＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）変換することによって当該フレームを符号化したＬＦＤフレームを生成するＬＦＤエンコーダと、前記フレームの線形予測係数を算出することによって当該フレームを符号化したＬＰ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）フレームを生成するＬＰエンコーダと、前記信号解析部の判断結果に応じて、前記フレームを前記ＬＦＤエンコーダによって符号化するか、前記ＬＰエンコーダによって符号化するかの切替を行う切替部と、前記切替部の切替制御によって前記ＬＰフレームと連続する前記ＬＦＤフレームであるＡＣ（ＡｌｉａｓｉｎｇＣａｎｃｅｌ）対象フレームの少なくとも一部を復号した信号と、前記ＡＣ対象フレームに連続する前記ＬＰフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、前記ＡＣ対象フレームの復号において生じるエイリアシングの除去に用いられるＡＣ信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するＡＣ信号生成部とを備え、前記ＡＣ信号生成部は、前記ＡＣ対象フレームが前記ＬＰフレームの直後に連続する場合、または前記ＡＣ対象フレームが前記ＬＰフレームの直前に連続するフレームである場合において、（１）複数の方式の中から選択した１つの方式にしたがって、前記ＡＣ信号を生成して出力し、かつ、（２）前記選択した１つの方式を示すＡＣフラグを出力する。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本発明の音信号ハイブリッドエンコーダは、効率的にＡＣ信号を生成することができる。

図１は、ＭＤＣＴを用いた符号化・復号における部分的オーバーラップによるエイリアシングの除去を説明するための図である。図２は、ＬＰ符号化から変換符号化への切り替えにおいて用いられるＡＣ信号の生成方法を示す図である。図３は、変換符号化からＬＰ符号化への切り替えにおいて用いられるＡＣ信号の生成方法を示す図である。図４は、実施の形態１に係る音信号ハイブリッドエンコーダの構成を示すブロック図である。図５は、オーバーラップが小さい窓の形状を示す図である。図６は、ＡＣ信号生成部の構成の一例を示すブロック図である。図７は、ＡＣ信号生成部の動作の一例を示すフローチャートである。図８は、ＬＰ符号化から変換符号化への切り替えにおいて用いられる、ＡＣ信号生成の第２の方式を示す図である。図９は、変換符号化からＬＰ符号化への切り替えにおいて用いられる、ＡＣ信号生成の第２の方式を示す図である。図１０は、実施の形態２に係る音信号ハイブリッドデコーダの構成を示すブロック図である。図１１は、ＡＣ出力信号生成部の構成の一例を示すブロック図である。図１２は、ＡＣ出力信号生成部の動作の一例を示すフローチャートである。

（本発明の基礎となった知見）
従来の音声圧縮技術は、大きく分類すれば、オーディオコーデックとスピーチコーデックとの２つに分けられる。

まず、オーディオコーデックについて説明する。

オーディオコーデックは、局所スペクトルコンテンツ（音色信号、高調波信号など）を含む定常信号を符号化するのに適している。オーディオコーデックでは、符号化は主に信号を周波数領域に変換することによって行われる。

具体的には、オーディオコーデックのエンコーダでは、修正離散コサイン変換（ＭＤＣＴ：ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）などの時間−周波数領域変換を用いて、入力信号を周波数（スペクトル）領域に変換する。ＭＤＣＴの場合、符号化されるフレームは、当該フレームと時間的に連続する（隣接する）フレームと時間的に重なる部分（部分的オーバーラップ）を有し、符号化されるフレームのそれぞれは、窓処理される。上記部分的オーバーラップは、復号側で、フレームの境界を平滑化するためにある。

また、窓処理は、より高解像度のスペクトルを生成するとともに、上記平滑化のため符号化されたフレームの境界をぼかすという２つの目的を兼ね備えている。また、上記部分的オーバーラップにより生じる標本化効果を補償するために、ＭＤＣＴは、時間領域サンプルを符号化用に数を減らしたスペクトル係数に変換する。ＭＤＣＴのような時間−周波数領域変換は、エイリアシング成分が生じるが、上記部分的オーバーラップにより、復号側でエイリアシング成分は除去される。

オーディオコーデックの主要な利点の１つは、心理音響モデルを容易に用いることができることである。例えば、より多くのビット数を知覚「マスカー」に、より少ないビット数を人間の耳が感知することができない知覚「マスキー」に割り当てることができる。オーディオコーデックでは、心理音響モデルを利用することにより、符号化効率と音質が大幅に向上する。ＭＰＥＧのアドバンスド・オーディオ・コーディング（ＡＡＣ）は、純粋なオーディオコーデックの良い一例である。

次に、スピーチコーデックについて説明する。

スピーチコーデックは、声道のピッチ特性を利用するモデルに基づく方法であり、人間の発話を符号化するのに適している。スピーチコーデックのエンコーダでは、人間の発話のスペクトル包絡線を得るため、線形予測（ＬＰ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）フィルタを用い、入力信号のＬＰフィルタの係数を符号化する。

次に、ＬＰフィルタが入力信号を逆フィルタリングして（スペクトル的に分割して）、スペクトルがフラットな音源信号を生成する。ここでの音源信号は、通常、「符号語」を有する音源信号を表し、ベクトル量子化（ＶＱ：ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎ）法を用いて、まばらに符号化される。

なお、線形予測フィルタとは別に、音声の長期的な周期性を捉えるために、長期予測器（ＬＴＰ：ＬｏｎｇＴｅｒｍＰｒｅｄｉｃｔｏｒ）が組み込まれてもよい。また、線形予測フィルタの前に、白色化フィルタを信号に適用することにより、心理音響的な側面を考慮した符号化が可能となる。

音源信号のまばらな符号化により、低ビットレートで優れた音質が実現される。しかしながら、このような符号化方式では、音楽のようなコンテンツの複素スペクトルを正確に捉えることはできず、音楽のようなコンテンツを高音質で再現することはできない。ＩＴＵ．Ｔ（国際電気通信連合電気通信標準化部門）の適応型マルチレート広帯域（ＡＭＲ−ＷＢ）は、純粋なスピーチコーデックの良い一例である。

また、第３のコーデックとして、「変換符号化励振」（ＴＣＸ：ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ）と称される符号化方法がある。ＴＣＸは、ＬＰ符号化と変換符号化を組み合わせたような方法である。まず、入力信号の線形予測フィルタから導出された知覚フィルタで、入力信号が知覚的に重み付けされる。次に、重み付けされた入力信号は、スペクトル領域に変換され、スペクトル係数は、ＶＱ法で符号化される。ＴＣＸは、ＩＴＵ．Ｔの拡張適応型マルチレート広帯域（ＡＭＲ−ＷＢ＋）コーデックに見られる。（ＡＭＲ−ＷＢ＋）において用いられる周波数変換は、離散フーリエ変換（ＤＦＴ：ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）である。

ここで、さらなる低ビットレートの符号化を実現するために、低ビットレートツールを追加することにより、上記の主要な符号化方法を補足することもできる。２つの主要な低ビットレートツールは、帯域幅拡張ツールと多チャンネル拡張ツールである。

帯域幅拡張（ＢＷＥ：ＢａｎｄＷｉｄｔｈＥｘｔｅｎｓｉｏｎ）ツールは、入力信号の低周波部分と高周波部分との高調波関係を利用して、入力信号の高周波部分をパラメータ的に符号化する。これらの帯域幅拡張パラメータは、例えば、サブバンドエネルギー及びＴＮＲ（ＴｏｎｅＴｏＮｏｉｓｅＲａｔｉｏ）などである。

デコーダは、入力信号をパッチするか引き伸ばすかにより、入力信号の低周波部分を拡張することで、基本高周波信号を形成する。次に、デコーダは、帯域幅拡張パラメータを用いて、スペクトル的に拡張された信号の振幅を形づくる。つまり、帯域幅拡張パラメータは、人工的に生成された対応物でノイズフロアとトーン（音色）とを補償する。

結果としてデコーダから出力される出力信号の波形は、元の入力信号の波形と類似していないが、元の入力信号と知覚的には似ている。ＭＰＥＧの高効率ＡＡＣ（ＨＥ−ＡＡＣ）は、スペクトル帯域複製（ＳＢＲ：ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）というコード名の、このような帯域幅拡張ツールを含むコーデックである。ＳＢＲでは、直交ミラーフィルタバンク（ＱＭＦ：ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒｂａｎｋ）で生成されたハイブリッド領域（時間及び周波数領域）において、パラメータ計算が実行される。

多チャンネル拡張ツールは、多チャンネルを符号化用のチャンネルサブセットにダウンミックスする。多チャンネル拡張ツールは、個々のチャンネル間の関係をパラメータ的に符号化する。これらの多チャンネル拡張パラメータは、例えば、チャンネル間のレベル差、チャンネル間の時間差、及びチャンネル間の相関などである。

デコーダは、復号されたダウンミックス済チャンネルの信号と人工的に生成された「非相関」信号とを混ぜることにより、個々のチャンネルの信号を合成する。このとき、上述のパラメータに基づいて、ダウンミックス済チャンネルの信号と、非相関信号とのミキシングウェイトを算出する。

結果としてデコーダから出力される出力信号の波形は、元の入力信号の波形と類似していないが、元の入力信号と知覚的には似ている。ＭＰＥＧサラウンド（ＭＰＳ：ＭＰＥＧＳｕｒｒｏｕｎｄ）は、このような多チャンネル拡張ツールの良い例である。ＳＢＲと同様に、ＱＭＦ領域では、ＭＰＳパラメータも算出される。多チャンネル拡張ツールは、ステレオ拡張としても知られている。

ところで、高解像度（ＨＤ）時代に入り、通信装置は、マルチメディア、娯楽及び通信などのユーザのニーズに対応する汎用装置に変わりつつある。この結果、音声主体の信号（音声信号）と、音響主体の信号（音響信号）との両方を処理できる統合コーデックに対する需要が高まっている。

最近では、ＭＰＥＧにより、統合音声音響符号化方式（ＵＳＡＣ：ＵｎｉｆｉｅｄＳｐｅｅｃｈＡｎｄＡｕｄｉｏＣｏｄｅｃ）が規格化されている。ＵＳＡＣは、広範囲のビットレートの入力信号（音声信号及び音響信号）に対し、音声信号及び音響信号の符号化を処理できる低ビットレートのコーデックである。

具体的には、ＵＳＡＣでは、入力信号の特性に応じて、上記のツール（ＡＡＣ方式に類似の方式（以下ＡＡＣとする）、ＬＰ、ＴＣＸ、帯域拡大ツール（以下、ＳＢＲとする)、及びチャンネル拡大ツール（以下、ＭＰＳとする））すべての中から最適なツールが選択され、組み合わせて使用される。

ＵＳＡＣのエンコーダは、ＭＰＳツールを用いてステレオ信号をモノラル信号にダウンミックスし、ＳＢＲツールを用いて全帯域のモノラル信号を狭帯域のモノラル信号に縮小する。さらに、ＵＳＡＣのエンコーダは、狭帯域のモノラル信号を符号化するため、信号分類部を用いて信号フレームの特性を分析し、コアコーデック（ＡＡＣ、ＬＰ、ＴＣＸ）のうちいずれを用いて符号化すべきかを決定する。ここで、ＵＳＡＣでは、コーデックの切り替えによりフレーム間に生じるエイリアシングを除去することが重要である。

上述の通り、フレームの境界を平滑化し、エイリアシングを除去するため、ＭＤＣＴは、連続するフレームを連結し、変換を行う前に、連結した信号を窓処理する。これは、図１に示される。

図１は、ＭＤＣＴを用いた符号化・復号における部分的オーバーラップによるエイリアシングの除去を説明するための図である。

図１では、ａとｂとは、フレーム１を２等分した場合の前半及び後半をそれぞれ示す。ｃとｄとは、フレーム２を２等分した場合の前半及び後半をそれぞれ示す。ｅとｆとは、フレーム３を２等分した場合の前半及び後半をそれぞれ示す。

ここで、１セット目のＭＤＣＴ変換は、フレーム１と２とを結合した信号（ａ、ｂ、ｃ、ｄ）に対して行われる。２セット目のＭＤＣＴ変換は、フレーム２と３とを結合した信号（ｃ、ｄ、ｅ、ｆ）に対して行われる。ｃとｄとは部分的オーバーラップ（オーバーラップ領域）である。

ＭＤＣＴでは、まず、結合した信号に窓

を適用する。なお、以下の式（１）は、１セット目のＭＤＣＴの場合であり、式（２）は、２セット目のＭＤＣＴの場合を示す。

デコーダにおいて確実に相補加算とエイリアシング除去を行うため、窓は、以下の式（３）の特徴を有する。

ここで、下付き文字の「Ｒ」は、時間の逆転／反転を示す。このような関係は、具体的には、例えば、正弦関数の前半のサイクルに見られる。

デコーダでは、復号ＭＤＣＴ係数に逆修正離散コサイン変換（ＩＭＤＣＴ：ＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）を施す。１セット目のＭＤＣＴに対するＩＭＤＣＴ後の信号は、以下の式（４）に示される。

式（４）に示される信号と、式（１）に示される原信号とを比較した場合、ＩＭＤＣＴにより、以下の式（５）に示されるようなエイリアシング成分が生じている。

同様に、２セット目のＭＤＣＴに対するＩＭＤＣＴ後の信号は、以下の式（６）に示される。

ＩＭＤＣＴ後の信号である式（４）と式（６）とに、窓

を掛けると、それぞれ以下の式（７）、式（８）のようになる。

及び

ここで、式（３）に示される窓特性を考慮して、式（７）の最後の２項を式（８）の最初の２項に加えることで、原信号であるｃとｄとが得られる。すなわち、エイリアシング成分が消去される。

なお、アルゴリズム遅延の観点から見れば、ＭＤＣＴに基づく符号化においてフレームサイズが、サンプル数Ｎである場合、ＭＤＣＴ用にフルフレームを用意するためにサンプル数Ｎの時間が必要である。つまり、Ｎのフレーミング遅延が生じる。さらに、これとは別に、サンプル数Ｎの固有のＭＤＣＴ遅延（フィルタ遅延）が生じる。したがって、総遅延は、サンプル数２Ｎである。

一方で、ＬＰ符号化の場合、フレームは、重なることなく順次符号化される。したがって、ＵＳＡＣのように、ＬＰ符号化から変換符号化（ＬＦＤ符号化とも記載する。例えば、ＭＤＣＴを用いた符号化方式やＴＣＸなどである。）に切り替えるか、またはその逆へ切り替える場合には、切り替えの境界におけるエイリアシングを除去する解決策が必要である。

ＭＰＥＧのＵＳＡＣでは、フォワード・エイリアシング除去（ＦＡＣ：ＦｏｒｗａｒｄＡｌｉａｓｉｎｇＣａｎｃｅｌ）ツールを用いて、エイリアシングを除去することができる。

図２は、ＦＡＣツールの原理を示す図である。

図２では、ａとｂとはフレーム１を２等分した場合の前半及び後半をそれぞれ示す。ｃとｄとは、フレーム２を２等分した場合の前半及び後半をそれぞれ示す。ｅとｆとは、フレーム３を２等分した場合の前半及び後半をそれぞれ示す。フレーム１の前半及びフレーム２の後半（つまり、ｂとｃ）には、ＬＰ符号化が行われる。フレーム２において符号化方式がＬＰ符号化から変換符号化に切り替わり、フレーム２とフレーム３とに対しては、変換符号化が行われる。

サブフレームｃは、ＬＰ符号化されるサブフレームであるため、デコーダは、符号化されたサブフレームｃのみを用いて、サブフレームｃを完全に復号することができる。しかしながら、サブフレームｄは、変換符号化（ＭＤＣＴまたはＴＣＸ）により符号化されるため、デコーダがサブフレームｄをそのまま復号した場合、復号後の信号には、エイリアシング成分が含まれる。このようなエイリアシング成分の除去を行うため、エンコーダは、以下の第１〜第３の信号を生成する。

式（９）に示されるように、エンコーダは、まず、ローカルデコーダを用いて、逆ＭＤＣＴし、窓処理した第１の信号ｘを生成する。ここで、ｄ’とｃ’とはそれぞれ、ｄとｃとをローカルデコーダによって復号した信号である。

また、エンコーダは、式（１０）に示されるように、ＬＰ符号化されたサブフレームｃをローカルデコーダを用いて復号した信号ｃ’’に、２つの窓を掛けて反転することにより、第２の信号ｙを生成する。

第３の信号は、式（１１）に示されるように、先行ＬＰフレームを窓処理したゼロ入力応答（ＺＩＲ：ＺｅｒｏＩｎｐｕｔＲｅｓｐｏｎｓｅ）である。ゼロ入力応答（ＺＩＲ）とは、ＦＩＲフィルタ処理において、過去入力によって状態が時々刻々と変化している状態のＦＩＲフィルタにゼロ入力がされたときの出力値を算出する処理である。

式（１２）に示されるように、エイリアシング除去（ＡＣ：ＡｌｉａｓｉｎｇＣａｎｃｅｌ）信号は、原信号ｄから上記の３つの信号を引くことで算出される。

ＡＣ信号は、以下のような特性を有する。符号化性能が十分であり、復号後の信号の波形と原信号の波形とが類似する場合、

及び

であり、式（１２）は、以下の式（１３）のように近似される。

さらに、サブフレームｄの最初で信号ｄを予測する際、線形予測符号化のＺＩＲが確かであるとするならば、ＡＣ信号のサブフレームの最初は、

である。また、サブフレームｄの最後はｗ２→１となるため、ＡＣ信号のサブフレームの最後は、

である。つまり、ＡＣ信号は、サブフレームｄの両側でゼロに収束する、自然に窓処理された信号のような形をしている。

上記ＡＣ信号は、ＬＰ符号化から変換符号化（ＭＤＣＴ／ＴＣＸ）への切り替え時に用いられるものである。変換符号化（ＭＤＣＴ／ＴＣＸ）からＬＰ符号化への切り替えの場合、同様のＡＣ信号が生成される。

このような場合に異なる点は、変換符号化からＬＰ符号化への切り替えにおいて用いられるＡＣ信号は、ＺＩＲ成分がないことである。また、変換符号化からＬＰ符号化への切り替えにおいて用いられるＡＣ信号は、サブフレームのＬＰ符号化されたフレームと隣接する端においてゼロでないため、窓処理された信号のような形をしていない点も異なる。

図３は、変換符号化からＬＰ符号化への切り替えにおいて用いられるＡＣ信号の生成方法を示す図である。

図３に示されるように、変換符号化からＬＰ符号化への切り替えにおいては、サブフレームｃに含まれるエイリアシング成分を除去するためにＡＣ信号が生成される。具体的には、式（１４）で示される第１の信号ｘと、式（１５）で示される第２の信号ｙとを、原信号ｃから引き算することによって、式（１６）に示されるように求められる。

ここで、ＡＣ信号の最初（左の境界）においては、ｗ_2,R→１となるため、

となる。

以上、エンコーダにおけるＡＣ信号の生成例について説明した。なお、デコーダの動作については、エンコーダの動作の逆であるため、説明を省略する。

ところで、最近では、ソーシャルネットワーク文化の台頭により、テレビ会議や音響映像を通した娯楽などの社会活動に参加する、インターネットに精通した人々が増えている。このような状況において、普及が予想される活動の１つとして、異なる場所にいるユーザがインターネットを介して集結し、リアルタイムで相互に楽器を演奏したり、合唱したり、アカペラで歌ったりすることが考えられる（以下、このような活動をネットワーク上の音楽演奏と記載する）。

ネットワーク上の音楽演奏を行なう場合、ユーザが違和感を感じないために、低遅延で音信号の符号化・復号を行うことが重要である。

具体的には、人間の耳が知覚する「音ずれ」を防ぐためには、信号処理の時間と、信号がネットワークを通じて伝送される時間（ネットワーク遅延）との合計時間である総遅延は、３０ミリ秒未満でなければならない（例えば、非特許文献１参照）。エコー除去処理及びネットワーク遅延が総遅延のうちの２０ミリ秒を占める場合、符号化・復号において許容されるアルゴリズム遅延は、約１０ミリ秒となる。

ここで、上述のＭＰＥＧのＵＳＡＣのアルゴリズム遅延は長いため、ネットワーク上の音楽演奏のように低遅延が求められるアプリケーションには適さない。ＭＰＥＧのＵＳＡＣにおける主な遅延は、以下の１〜３によって生じる。

１．エンコーダおよびデコーダ双方で生じる主な遅延は、フレームのサイズが大きいことにより生じる。現在、ＭＰＥＧのＵＳＡＣの規格では、７６８サンプルまたは１０２４サンプルのフレームサイズが許可されている。ここで、ＭＰＥＧのＵＳＡＣにおいては、変換符号化時に、サンプル数をＮとした場合、２Ｎの遅延が生じ、１５３６または２０４８サンプルの遅延が生じる。さらに、サンプリング周波数が４８ｋＨｚであれば、３２ミリ秒または４３ミリ秒のコアＭＤＣＴ＋フレーミング遅延がそれぞれ生じる。

２．エンコーダおよびデコーダ双方で生じる主な遅延の二つ目は、ＳＢＲ及びＭＰＳに対するＱＭＦ分析及び合成フィルタバンクにおいて生じる。左右対称の典型的な窓を持つ従来のフィルタバンクは、追加５７７サンプルの遅延または４８ｋＨｚのサンプリング周波数において１２ミリ秒の遅延を生じる。

３．エンコーダで生じる主な遅延は、エンコーダの信号分類部により生じるルックアヘッドディレイである。信号分類部は、信号の遷移、音色及びスペクトル傾斜（信号の特性）を解析し、ＭＤＣＴ、ＬＰ及びＴＣＸのうちいずれの方式によって信号を符号化すべきか決定する。通常これにより、さらに１フレーム分の遅延が生じる。その遅延は、サンプリング周波数が４８ｋＨｚであれば、１６ミリ秒または２１ミリ秒である。

上記１〜３を鑑みれば、超低遅延を実現するために最初に行うべきことは、フレームサイズの大幅な縮小である。しかしながら、フレームサイズが縮小される場合は、変換符号化の符号化効率を低減するため、量子化の際にビットを効率的に使用することがこれまで以上に重要になる。

上述したように、特に、ＬＰ符号化と変換符号化（ＭＤＣＴ／ＴＣＸ）との切り替えが行われる場合、変換符号化されたフレームのエイリアシング成分は、復号後のＬＰ信号と合成される（例えば、式（１０））。このため、エンコーダは、上述のようにＡＣ信号と称される追加のエイリアシング残留信号を生成し、符号化することでエイリアシング成分を除去する。ここで、理想的には、符号化の負荷を最小限にするため、ＡＣ信号の符号量は、できるだけ小さくすべきである。

ところが、ＡＣ信号を用いてもエイリアシング成分を十分に除去できない場合がある。例えば、図２に示されるように、符号化方式がＬＰ符号化から変換符号化（ＭＤＣＴ／ＴＣＸ）に切り替わる場合、先行のＬＰ符号化されたサブフレームｃのＺＩＲに基づき、ＡＣ信号は、最初がゼロになるように算出される。

このとき、ＡＣ信号は、一見すると窓処理された信号であり、特定の量子化方法を用いれば、効率的な符号化を促進するものである。しかしながら、図２に示されるＡＣ信号の生成方法は、サブフレームｃのＺＩＲに基づき、サブフレームｄの開始を予測するものであるため、例えば、信号特性が突然変化するような場合には、十分にエイリアシング成分を除去できない。

また、図３に示されるように、符号化方式が変換符号化（ＭＤＣＴ／ＴＣＸ）からＬＰ符号化に切り替わる場合、ＡＣ信号は、サブフレームｃの最後においてゼロではない。これは、前の段落で説明したように、特定の量子化方法においては、非効率的な符号化を招く。

３つ目に、ＡＣ信号の波形は、符号化された原信号の波形より小さくなることはなく、エイリアシング除去済のＭＤＣＴ信号及びＬＰ信号は、原信号に類似する。高いビットレートでは、原信号の波形と復号後の信号の波形とが類似することがあり、符号化の際にＡＣ信号が不必要な負担となる。

以上のような状況を鑑み、ＭＰＥＧのＵＳＡＣの全体構造に基づく、本発明のコーデックは、まず、低遅延化を図るために、以下の１〜３のような基本構成とした。

１．基本構成では、フレームサイズが小さくされている。具体的には、フレームのサイズは２５６サンプルが推奨されるが、これに限定されることはない。これにより、生じる遅延は、サンプル数では２×２５６＝５１２サンプルであり、サンプリング周波数が４８ｋＨｚであれば、１１ミリ秒のＭＤＣＴ＋フレーミング遅延が生じることとなる。

２．また、基本構成では、さらに遅延を減少させるため、連続するＭＤＣＴフレーム間の重なり（オーバーラップ）を縮小する（例えば、非特許文献４参照）。ここで、推奨される重なりのサンプル数は、１２８サンプルである。これにより、ＭＤＣＴ＋フレーミング遅延は、サンプル数では２５６＋１２８＝３８４サンプルであり、サンプリング周波数が４８ｋＨｚであれば８ミリ秒となる。すなわち、生じる遅延は、上述の１１ミリ秒から８ミリ秒に減少される。

３．また、基本構成では、非対称の典型的な窓を有する複合低遅延フィルタバンクを用いる。低遅延ＱＭＦフィルタバンクの構築については、非特許文献２に記載されており周知であり、ＭＰＥＧのＡＡＣ−ＥＬＤ（非特許文献３参照）で既に用いられている。複合低遅延フィルタバンクでは、非対称の典型的な窓の長さを半分にし、サブバンド数（Ｍ）パラメータと、過去の拡張（Ｅ）パラメータとを調整することにより、２ミリ秒未満の遅延を実現することができる。例えば、Ｍ＝６４、Ｅ＝８、典型的な窓の長さが６４０の場合、ＭＰＥＧのＡＡＣ−ＥＬＤの複合低遅延ＱＭＦフィルタバンクは、サンプル数では６４サンプル、サンプリング周波数が４８ｋＨｚであれば１．３ミリ秒の遅延が実現される。

このような基本構成を用いることによって、本発明のコーデックでは、１０ミリ秒のアルゴリズム遅延を実現することができる。

ここで、このような基本構成では、フレームのサイズが縮小されることで符号化オーバーヘッドが生じる。このため、ＡＣ信号により生じるビットオーバーヘッドは、より目立つ。上記ビットオーバーヘッドは、特に、コーデックの切り替えが速い場合に目立つ。したがって、このため、効率的にＡＣ信号を生成することが課題となる。

このような課題を解決するために、本願発明者らは、ＡＣ信号をより効率的に符号化する方法を見出した。

このように、複数の方式から１つの方式を選択してＡＣ信号を生成して出力することで、音信号ハイブリッドエンコーダは、効率的にＡＣ信号を生成することができる。

また、例えば、前記ＡＣ信号生成部は、第１の方式及び前記第１の方式とは異なる第２の方式の中から選択した１つの方式にしたがって前記ＡＣ信号を生成して出力してもよい。

また、例えば、さらに、前記ＡＣ信号を量子化する量子化器を備え、前記ＡＣ信号生成部は、前記第１の方式及び前記第２の方式のそれぞれを用いて２つの前記ＡＣ信号を生成し、生成した２つの前記ＡＣ信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記ＡＣ信号の生成に用いられた方式の前記ＡＣ信号を出力してもよい。

これにより、音信号ハイブリッドエンコーダは、より符号量の少ないＡＣ信号を選択し、出力することができる。

また、例えば、前記ＡＣ対象フレームが前記ＬＰフレームの直後に連続するフレームである場合、前記第１の方式は、前記ＡＣ対象フレームの直前のＬＰフレームを窓処理したゼロ入力応答を用いて前記ＡＣ信号を生成する方式であり、前記第２の方式は、前記ゼロ入力応答を用いることなく前記ＡＣ信号を生成する方式であってもよい。

また、例えば、前記第１の方式は、ＵＳＡＣ（ＵｎｉｆｉｅｄＳｐｅｅｃｈＡｎｄＡｕｄｉｏＣｏｄｅｃ）において規格化された方式であり、前記第２の方式は、生成されるＡＣ信号の量子化後の符号量が前記第１の方式よりも小さくなることが見込まれる方式であってもよい。

また、例えば、前記ＡＣ信号生成部は、前記音信号に含まれるフレームのフレームサイズが所定の大きさよりも大きい場合は、前記第１の方式を選択し、前記音信号に含まれるフレームのフレームサイズが前記所定の大きさ以下の場合は、前記第２の方式を選択してもよい。

第２の方式がフレームサイズが小さい場合に有効であるような場合、このような構成によっても、低ビットレートの効率的な符号化が実現される。

また、例えば、さらに、前記ＡＣ信号を量子化する量子化器を備え、前記ＡＣ信号生成部は、前記第１の方式で前記ＡＣ信号を生成し、前記第１の方式で生成した前記ＡＣ信号の前記量子化器による量子化後の符号量が所定の閾値よりも小さい場合は、前記第１の方式を選択し、前記第１の方式で生成した前記ＡＣ信号の前記量子化器による量子化後の符号量が所定の閾値以上である場合は、さらに前記第２の方式で前記ＡＣ信号を生成し、前記第１の方式で生成した前記ＡＣ信号及び前記第２の方式で生成した前記ＡＣ信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記ＡＣ信号を出力してもよい。

これにより、第１の方式で生成されたＡＣ信号の符号量が十分小さいときは第２の方式でＡＣ信号を生成する必要がないため、ＡＣ信号の生成における処理量を低減できる。

また、例えば、前記ＡＣ信号生成部は、さらに、前記第１の方式で前記ＡＣ信号を生成する第１のＡＣ候補生成器と、前記第２の方式で前記ＡＣ信号を生成する第２のＡＣ候補生成器と、（１）前記第１のＡＣ候補生成器及び前記第２のＡＣ候補生成器のうちから選択した１つのＡＣ候補生成器が生成する前記ＡＣ信号を出力し、かつ、（２）出力される前記ＡＣ信号が前記第１の方式及び前記第２の方式のいずれの方式を用いて生成されたかを示す前記ＡＣフラグを出力するＡＣ候補選択器とを備えてもよい。

また、例えば、さらに、入力信号に対して時間周波数領域表現に変換した信号である入力サブバンド信号を生成するＬＤ（ＬｏｗＤｅｌａｙ）解析フィルタバンクと、前記入力サブバンド信号から、マルチチャンネル拡張パラメータ及びダウンミックスサブバンド信号を生成するマルチチャンネル拡張部と、前記ダウンミックスサブバンド信号から、帯域幅拡張パラメータ及び狭帯域サブバンド信号を生成する帯域幅拡張部と、前記狭帯域サブバンド信号を時間周波数領域表現から時間領域表現に変換した信号である前記音信号を生成するＬＤ合成フィルタバンクと、前記マルチチャンネル拡張パラメータ、前記帯域幅拡張パラメータ、出力された前記ＡＣ信号、前記ＬＦＤフレーム、及び前記ＬＰフレームを量子化する量子化器と、前記量子化器が量子化した信号及び前記ＡＣフラグを多重化して送信するビットストリームマルチプレクサとを備えてもよい。

また、例えば、前記ＬＦＤエンコーダは、ＴＣＸ方式によって前記フレームを符号化してもよい。

また、例えば、前記ＬＦＤエンコーダは、ＭＤＣＴによって前記フレームを符号化し、前記切替部は、前記ＬＦＤエンコーダが符号化する前記フレームに対し窓処理を行い、前記窓処理に用いられる窓は、前記フレームの長さの２分の１よりも短い期間において単調増加または単調減少してもよい。

また、本発明の一態様に係る音信号ハイブリッドデコーダは、ＬＦＤ変換により符号化されたＬＦＤフレームと、線形予測係数を用いて符号化されたＬＰフレームと、前記ＬＰフレームと連続する前記ＬＦＤフレームであるＡＣ対象フレームのエイリアシングの除去を行うためのＡＣ信号とが含まれる符号化信号を復号する音信号ハイブリッドデコーダであって、前記ＬＦＤフレームを復号するＩＬＦＤ（ＩｎｖｅｒｓｅＬａｐｐｅｄＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）デコーダと、前記ＬＰフレームを復号するＬＰデコーダと、前記ＩＬＦＤデコーダが復号したフレームに窓処理を行ったフレームと、前記ＬＰデコーダが復号したフレームとを順番に整列した第２の狭帯域信号を出力する切替部と、前記ＡＣ信号の生成に用いられた方式を示すＡＣフラグを取得し、前記ＡＣフラグが示す方式に応じて、前記切替部、前記ＩＬＦＤデコーダ、または前記ＬＰデコーダから出力される信号を前記ＡＣ信号に加算したＡＣ出力信号を生成するＡＣ出力信号生成部と、前記第２の狭帯域信号のうちの前記ＡＣ対象フレームに相当する部分に、前記ＡＣ出力信号を加算した第３の狭帯域信号を出力する加算部とを備える。

また、例えば、さらに、量子化された前記符号化信号と、前記ＡＣフラグとが含まれるビットストリームを取得するビットストリームデマルチプレクサと、前記量子化された前記符号化信号を逆量子化して前記符号化信号を生成する逆量子化器と、前記加算部から出力される前記第３の狭帯域信号を時間周波数領域表現に変換することにより、狭帯域サブバンド信号を生成するＬＤ解析フィルタバンクと、前記逆量子化器により生成された符号化信号に含まれる帯域幅拡張パラメータを前記狭帯域サブバンド信号に適用することにより、高周波信号を合成し、帯域幅が拡張されたサブバンド信号を生成する帯域幅拡張復号部と、前記逆量子化器により生成された符号化信号に含まれるマルチチャンネル拡張パラメータを前記帯域幅が拡張されたサブバンド信号に適用することにより、マルチチャンネルサブバンド信号を生成するマルチチャンネル拡張復号部と、前記マルチチャンネルサブバンド信号を時間周波数領域表現から時間領域表現に変換した信号であるマルチチャンネル信号を生成するＬＤ合成フィルタバンクとを備えてもよい。

また、例えば、前記ＡＣ信号は、第１の方式または前記第１の方式とは異なる第２の方式によって生成され、前記ＡＣ出力信号生成部は、さらに、前記第１の方式で生成された前記ＡＣ信号に対応する前記ＡＣ出力信号を生成する第１のＡＣ候補生成器と、前記第２の方式で生成された前記ＡＣ信号に対応する前記ＡＣ出力信号を生成する第２のＡＣ候補生成器と、前記ＡＣフラグに応じて、前記第１のＡＣ候補生成器及び前記第２のＡＣ候補生成器のいずれか一方を選択し、選択したＡＣ候補生成器に前記ＡＣ出力信号を生成させるＡＣ候補選択器とを備えてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態１）
実施の形態１では、音信号ハイブリッドエンコーダについて説明する。

図４は、実施の形態１に係る音信号ハイブリッドエンコーダの構成を示すブロック図である。

音信号ハイブリッドエンコーダ１００は、ＬＤ（ＬｏｗＤｅｌａｙ）解析フィルタバンク４００と、ＭＰＳエンコーダ４０１と、ＳＢＲエンコーダ４０２と、ＬＤ合成フィルタバンク４０３と、信号解析部４０４と、切替部４０５とを備える。また、音信号ハイブリッドエンコーダ１００は、ＭＤＣＴフィルタバンクを用いたオーディオエンコーダ４０６（以下、単にＭＤＣＴエンコーダ４０６と記載する）と、ＬＰエンコーダ４０８と、ＴＣＸエンコーダ４１０とを備える。また、音信号ハイブリッドエンコーダ１００は、複数の量子化器４０７、４０９、４１１、４１４、４１６、及び４１７と、ビットストリームマルチプレクサ４１５と、ローカルデコーダ４１２と、ＡＣ信号生成部４１３とを備える。

ＬＤ解析フィルタバンク４００は、入力信号（マルチチャネル入力信号）に対して低遅延解析フィルタバンク処理を行うことにより、ハイブリッド時間／周波数表現で表される入力サブバンド信号を生成する。低遅延フィルタバンクは、具体的には、非特許文献２に示される低遅延ＱＭＦフィルタバンク等が候補として挙げられるが、これに限定されるものではない。

ＭＰＳエンコーダ４０１（マルチチャンネル拡張部）は、ＬＤ解析フィルタバンク４００が生成した入力サブバンド信号を、より小さな信号のセットである、ダウンミックスサブバンド信号に変換し、ＭＰＳパラメータを生成する。ここでのダウンミックスサブバンド信号は、全帯域ダウンミックスサブバンド信号を意味する。

例えば、入力信号がステレオ信号である場合、生成されるダウンミックスサブバンド信号は１つのみである。なお、ＭＰＳパラメータは、量子化器４１６によって量子化される。

ＳＢＲエンコーダ４０２（帯域幅拡張部）は、ダウンミックスサブバンド信号を狭帯域サブバンド信号のセットにダウンサンプリングする。このプロセスにおいて、ＳＢＲパラメータが生成される。なお、ＳＢＲパラメータは、量子化器４１７によって量子化される。

ＬＤ合成フィルタバンク４０３は、狭帯域サブバンド信号を時間領域に再変換し、第１の狭帯域信号（音信号）を生成する。ここでも、非特許文献２に示される低遅延ＱＭＦフィルタバンクを用いることができる。

信号解析部４０４は、第１の狭帯域信号の特性を解析し、第１の狭帯域信号を符号化するために、ＭＤＣＴエンコーダ４０６、ＬＰエンコーダ４０８、及びＴＣＸエンコーダ４１０の中から最適なエンコーダを選択する。なお、以下の説明では、ＭＤＣＴエンコーダ４０６と、ＴＣＸエンコーダ４１０とは、ＬＦＤ（ＬａｐｐｅｄＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）エンコーダとも称される。

例えば、信号解析部４０４は、全体的に非常にトーン性があり、スペクトル傾斜の変動が小さい第１の狭帯域信号に対しては、ＭＤＣＴエンコーダ４０６を選択することができる。ＭＤＣＴの基準を適用できない場合、信号解析部４０４は、低周波領域においてトーン性が強く、スペクトル傾斜が大きく変動する第１の狭帯域信号であれば、ＬＰエンコーダ４０８が選択される。上記いずれの基準にもあてはまらない第１の狭帯域信号に対しては、ＴＣＸエンコーダ４１０が選択される。

なお、上記の信号解析部４０４のエンコーダの判断基準は、一例であり、このような判断基準に限定されるものではない。信号解析部４０４は、第１の狭帯域信号（音信号）の特性を解析し、第１の狭帯域信号に含まれるフレームの符号化方法を判断すれば、判断基準はどのようなものであってもよい。

切替部４０５は、信号解析部４０４の判断結果に応じてフレームをＬＦＤエンコーダ（ＭＤＣＴエンコーダ４０６、またはＴＣＸエンコーダ４１０）によって符号化するか、ＬＰエンコーダ４０８によって符号化するかの切替制御を行う。具体的には、切替部４０５は、信号解析部４０４の判断結果に応じて選択したエンコーダに基づき、第１の狭帯域信号に含まれる符号化対象フレーム（過去と現在のフレーム）のサンプルサブセットを選択し、次の符号化のために、当該サンプルサブセットから第２の狭帯域信号を生成する。

ここで、切替部４０５は、ＭＤＣＴを選択する場合、選択したサンプルサブセットに窓処理を行う。

図５は、オーバーラップが小さい窓の形状を示す図である。図５に示されるように、音信号ハイブリッドエンコーダ１００において望ましい窓の形状は、オーバーラップが小さい。実施の形態１では、切替部４０５は、ＭＤＣＴを選択する場合、このような窓処理を行う。

なお、図１等において示される窓は、フレームの長さの２分の１の期間において単調増加し、フレームの長さの２分の１の期間において単調減少する。これに対し、図５において示される窓は、フレームの長さの２分の１よりも短い期間において単調増加し、フレームの長さの２分の１よりも短い期間において単調減少する。このことは、すなわち、オーバーラップが小さいことを意味する。

ＭＤＣＴエンコーダ４０６は、ＭＤＣＴによって符号化対象フレームを符号化する。

ＬＰエンコーダ４０８は、符号化対象フレームの線形予測係数を算出することによって当該符号化対象フレームを符号化する。ＬＰエンコーダ４０８は、例えば、ＡＣＥＬＰ（ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）、ＶＳＥＬＰ（ＶｅｃｔｏｒＳｕｍＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）等のＣＥＬＰ方式である。

ＴＣＸエンコーダ４１０は、符号化対象フレームをＴＣＸ方式で符号化する。具体的には、ＴＣＸエンコーダ４１０は、符号化対象フレームの線形予測係数を算出し、線形予測係数の残差をＭＤＣＴ処理して符号化対象フレームを符号化する。

なお、以下の説明では、ＭＤＣＴエンコーダ４０６またはＴＣＸエンコーダ４１０で符号化されたフレームをＬＦＤフレームと記載し、ＬＰエンコーダ４０８で符号化されたフレームをＬＰフレームと記載する。また、切替部４０５の切替によってエイリアシングが生じるＬＦＤフレームを、ＡＣ対象フレームと記載する。

つまり、ＡＣ対象フレームは、切替部４０５の切替制御によってＬＰフレームと連続して符号化されたＬＦＤフレームである。ＡＣ対象フレームには、ＡＣ対象フレームがＬＰフレームの直後に符号化されたフレーム（直後に連続するフレーム）である場合と、ＡＣ対象フレームがＬＰフレームの直前に符号化されたフレーム（直前に連続するフレーム）である場合との２種類がある。

量子化器４０７、４０９、及び４１１は、エンコーダの出力を量子化する。具体的には、量子化器４０７は、ＭＤＣＴエンコーダ４０６の出力を量子化し、量子化器４０９は、ＬＰエンコーダ４０８の出力を量子化し、量子化器４１１は、ＴＣＸエンコーダ４１０の出力を量子化する。

一般的に、量子化器４０７は、ｄＢステップの量子化器とハフマン符号化との組み合わせであり、量子化器４０９、及び量子化器４１１は、ベクトル量子化器である。

ローカルデコーダ４１２は、ビットストリームマルチプレクサ４１５からＡＣ対象フレーム、及びこれに連続するＬＰフレームを取得し、取得したフレームの少なくとも一部を復号したローカルデコード信号を生成する。ローカルデコード信号は、ローカルデコーダ４１２によって復号された狭帯域信号であり、具体的には、上述した、式（１０）のｄ’及びｃ’や、式（１１）のｃ’’、式（１５）のｄ’’などである。

ＡＣ信号生成部４１３は、ＡＣ対象フレームの復号において生じるエイリアシングの除去に用いられるＡＣ信号を、上記第１信号及び第１の狭帯域信号を用いて生成し、出力する。すなわち、ＡＣ信号生成部４１３は、ローカルデコーダ４１２によって提供される復号した過去データ（過去フレーム）を活用してＡＣ信号を生成する。

また、実施の形態１では、ＡＣ信号生成部４１３は、複数のＡＣプロセス（方式）を用いて複数のＡＣ信号をそれぞれ生成し、生成したＡＣ信号のうち、どのＡＣ信号が符号化する上でよりビット効率が良いかを確認する。さらに、ＡＣ信号生成部４１３は、符号化する上でよりビット効率が良いＡＣ信号を選択し、選択したＡＣ信号と、当該ＡＣ信号の生成に用いられたＡＣプロセスを示すＡＣフラグを出力する。なお、選択されたＡＣ信号は、量子化器４１４によって量子化される。

ビットストリームマルチプレクサ４１５は、すべての符号化されたフレームと副情報とをビットストリームに書き込む。つまり、ビットストリームマルチプレクサ４１５は、量子化器４０７、４０９、４１１、４１４、４１６、及び４１７が量子化した信号、及びＡＣフラグを多重化して送信する。

以下、実施の形態１に係る音信号ハイブリッドエンコーダ１００の特徴動作である、ＡＣ信号生成部４１３の構成及び動作について詳細に説明する。

図６は、ＡＣ信号生成部４１３の構成の一例を示すブロック図である。

図６に示されるように、ＡＣ信号生成部４１３は、第１のＡＣ候補生成器７００と、第２のＡＣ候補生成器７０１と、ＡＣ候補選択器７０２とを備える。

第１のＡＣ候補生成器７００及び第２のＡＣ候補生成器７０１のそれぞれは、第１の狭帯域信号とローカルデコード信号とを用いて、最終的にＡＣ信号生成部４１３から出力されるＡＣ信号の候補であるＡＣ候補を算出する。なお、以下の説明では、第１のＡＣ候補生成器７００が生成するＡＣ候補を単にＡＣ、第２のＡＣ候補生成器７０１が生成するＡＣ候補を単にＡＣ２と表記することがある。

また、以下の説明では、第１のＡＣ候補生成器７００は、第１の方式でＡＣ候補（ＡＣ信号）を生成し、第２のＡＣ候補生成器は、第１の方式とは異なる第２の方式でＡＣ候補（ＡＣ信号）を生成するものとする。第１の方式及び第２の方式の詳細については、後述する。

ＡＣ候補選択器７０２は、所定の条件に基づいてＡＣ及びＡＣ２のうちの一方のＡＣ候補を選択する。ここで、所定の条件とは、実施の形態１では、各ＡＣ候補を量子化した場合の符号量である。ＡＣ候補選択器７０２は、選択したＡＣ候補と、選択したＡＣ候補が第１の方式及び第２の方式のいずれの方式を用いて生成されたかを示すＡＣフラグとを出力する。

図７は、ＡＣ信号生成部４１３の動作の一例を示すフローチャートである。

音信号ハイブリッドエンコーダ１００では、上述のように、信号解析部４０４の判断結果に応じて切替部４０５が符号化方式を切り替えながら、第１の狭帯域信号の符号化が行われる（Ｓ１０１、Ｓ１０２でＮｏ）。

符号化対象フレームがＡＣ対象フレームである場合（Ｓ１０２でＹｅｓ）、ＡＣ信号生成部４１３は、まず第１の方式でＡＣ信号を生成する（Ｓ１０３）。具体的には、第１のＡＣ候補生成器７００が、第１の狭帯域信号とローカルデコード信号とを用いて、ＡＣを生成する。

次に、ＡＣ信号生成部４１３は、第２の方式でＡＣ信号を生成する（Ｓ１０４）。具体的には、第２のＡＣ候補生成器７０１が、第１の狭帯域信号とローカルデコード信号とを用いて、ＡＣ２を生成する。

次に、ＡＣ信号生成部４１３は、ＡＣ及びＡＣ２のうちの一方のＡＣ候補（ＡＣ信号）を選択する（Ｓ１０５）。具体的には、ＡＣ候補選択器７０２は、ＡＣ及びＡＣ２のうち、量子化器４１４による量子化後の符号量が小さいＡＣ候補を選択する。

最後に、ＡＣ信号生成部４１３は、ステップＳ１０５において選択したＡＣ候補（ＡＣ信号）と、当該ＡＣ候補の生成方式を示すＡＣフラグとを出力する（Ｓ１０６）。

以上説明したように、ＡＣ信号生成部４１３は、所定の条件に基づいて、第１の方式で生成したＡＣ信号、及び、第１の方式とは異なる第２の方式で生成したＡＣ信号のいずれか一方を選択して出力する。また、ＡＣ信号生成部４１３は、出力されるＡＣ信号が第１の方式及び第２の方式のいずれの方式を用いて生成されたかを示すＡＣフラグを出力する。

なお、ＡＣ信号生成部４１３は、ＡＣ対象フレームがＬＰフレームの直後に符号化されたフレームである場合及びＡＣ対象フレームがＬＰフレームの直前に符号化されたフレームである場合のそれぞれにおいて、２つの方式でＡＣ信号を生成する。

次に、第１の方式及び第２の方式について詳細に説明する。なお、以下の説明では、第１の方式と第２の方式との具体例をそれぞれ１つずつ挙げるが、ＡＣ信号の生成方式は、これらの具体例に限定されるものではなく、どのような方式であってもよい。

まず、ＬＰ符号化から変換符号化（ＭＤＣＴ／ＴＣＸ）への切り替えにおける第１の方式及び第２の方式について説明する。

第１の方式は、既に図２を用いて説明したように、ＭＰＥＧのＵＳＡＣで通常用いられるＡＣプロセスであり、式（１２）を用いてＡＣ候補（ＡＣ）を生成する方式である。すなわち、第１のＡＣ候補生成器７００は、式（１２）を用いてＡＣ候補（ＡＣ）を生成する。

しかしながら、上述した通り、第１の方式で生成されるＡＣ信号が十分にエイリアシングを除去できるか否かは、ＺＩＲの確実性に大きく影響される。ＺＩＲ成分が大きい場合には、エイリアシングが除去しにくい傾向にあるし、また一方でＺＩＲ成分が小さい場合には、エイリアシング除去がしやすい傾向にある。また、復号後の信号の波形が、原信号の波形と非常に類似している場合であっても、それに応じてエイリアシングが消えることはない。なぜなら、ＺＩＲは、時間が経つにつれて原信号との相違が大きくなる特性があるからである。

そこで、ＡＣ信号生成部４１３は、さらにＺＩＲを用いない、第２の方式を用いてＡＣ信号を生成する。第２の方式は、生成されるＡＣ信号の量子化後の符号量が第１の方式よりも小さくなることが見込まれる方式（エイリアシング除去よりも符号量を優先した方式）であることが望ましい。たとえば、第２の方式としては、ＡＣ信号の振幅が小さい場合に、その信号を量子化する量子化ビットを通常の量子化ビット数よりも削減する手法や、ＡＣ信号をＬＰＣフィルタで表現する際のフィルタ係数の次数を削減する手法など、さまざまな手法をとることができる。

図８は、ＬＰ符号化から変換符号化への切り替えにおいて用いられる、ＡＣ信号生成の第２の方式を示す図である。すなわち、第２のＡＣ候補生成器７０１は、以下の式（１７）を用いてＡＣ候補（ＡＣ２）を生成する。

ここで、式（９）のｘ及び式（１０）のｙを式（１７）に代入して式を展開すると、以下の式（１８）及び（１９）に示されるように、式（１７）の根拠を理解することができる。

が上述したものと同様のものであるとすると、ＡＣ２は、以下の式（１９）のように近似される。

式（１９）に示されるように、ＡＣ２は、ＡＣよりビット効率の良い信号である可能性が高い。ＡＣに比べ上記のＡＣ２信号は、信号レベル変動が小さい可能性が高く、そういった信号に対して量子化する際に、量子化に割り当てるビット数をある程度間引いても、量子化精度が劣化しにくい。このため、特に、原信号ｄと復号後の信号ｄ’の波形が類似しやすい場合や、ビットレートがより高く、ｄとｄ‘の差分が小さくなるような傾向の符号化条件の場合に特に、ＡＣ２は、ＡＣよりビット効率の良い信号である可能性が高い。

続いて、変換符号化（ＭＤＣＴ／ＴＣＸ）からＬＰ符号化への切り替えにおける第１の方式及び第２の方式について説明する。

第１の方式は、既に図３を用いて説明したように、ＭＰＥＧのＵＳＡＣで通常用いられるＡＣプロセスであり、式（１６）を用いてＡＣ候補（ＡＣ）を生成する。すなわち、第１のＡＣ候補生成器７００は、式（１６）を用いてＡＣ候補（ＡＣ）を生成する。

また、上記と同様の理由で、ＡＣ信号生成部４１３は、さらに、第２の方式を用いてＡＣ信号を生成する。

図９は、変換符号化からＬＰ符号化への切り替えにおいて用いられる、ＡＣ信号生成の第２の方式を示す図である。すなわち、第２のＡＣ候補生成器７０１は、以下の式（２０）を用いてＡＣ候補（ＡＣ２）を生成する。

式（２０）において、ｘ（式１４）とｙ（式１５）とを式（２０）に代入して式（２０）を展開し、かつ、

と仮定すると、ＡＣ２は、以下の式（２１）のように近似される。

ここでも、ＡＣ２は、ＡＣよりもビット効率の良い符号化対象の信号である可能性が高い。特によりビット効率の良い場合において、原信号ｃと復号後の信号ｃ’の波形は類似しやすい。

次に、ＡＣ候補選択器７０２のＡＣ信号の選択方法について説明する。

ＡＣ候補選択器７０２の最もシンプルな選択方法は、ＡＣとＡＣ２の両方を量子化器４１４に通し、符号化に必要なビット数（符号量）が少ないＡＣ候補を選択する方法である。

なお、ＡＣ候補の選択方法は、このような方法に限定されず、その他の方法であってもよい。

例えば、ＡＣ候補選択器７０２（ＡＣ信号生成部４１３）は、第１の狭帯域信号に含まれるフレームのフレームサイズが所定の大きさよりも大きい場合（たとえば、当該フレームの符号量が多い場合など）は、第１の方式を選択し、第１の狭帯域信号に含まれるフレームのフレームサイズが所定の大きさ以下の場合（たとえば、当該フレームの符号量が少ない場合など）は、第２の方式を選択してもよい。

上述のように、ＡＣ２は、フレームサイズが小さい場合に有効であるため、このような構成によっても、低ビットレートの効率的なエンコーダを実現することができる。

また、例えば、ＡＣ信号生成部４１３は、第１の方式でＡＣ信号を生成し、第１の方式で生成したＡＣ信号の量子化器による量子化後の符号量が所定の閾値よりも小さい場合は、第１の方式を選択してもよい。

このような構成であれば、第１の方式で生成されたＡＣ信号の符号量が十分小さいときは第２の方式でＡＣ信号を生成する必要がないため、ＡＣ信号の生成における処理量を低減できる。

続いて、ＡＣ信号生成部４１３は、第１の方式で生成したＡＣ信号の量子化器４１４による量子化後の符号量が所定の閾値以上である場合は、さらに第２の方式でＡＣ信号を生成する。この結果、ＡＣ信号生成部４１３は、第１の方式で生成したＡＣ信号及び第２の方式で生成したＡＣ信号のうち、量子化器４１４による量子化後の符号量が小さいほうのＡＣ信号を出力してもよい。

このような構成により、ＡＣ信号を生成における処理量を低減しつつ、適応的に方式を選択してＡＣ信号を生成し、低ビットレートの効率的なエンコーダを実現することができる。

なお、実施の形態１に係る音信号ハイブリッドエンコーダは、少なくとも重複周波数領域変換エンコーダ（ＬＦＤエンコーダ。例えば、ＭＤＣＴ、ＴＣＸ）と、線形予測エンコーダ（ＬＰエンコーダ）とを含むエンコーダであれば、どのような構成のエンコーダとして実現されてもよい。例えば、実施の形態１に係る音信号ハイブリッドエンコーダは、ＴＣＸエンコーダ及びＬＰエンコーダのみを含むエンコーダとして実現されてもよい。また、実施の形態１における帯域幅拡張ツールとマルチチャンネル拡張ツールとは、任意の低ビットレートツールであり、必須の構成要素ではない。実施の形態１に係る音信号ハイブリッドエンコーダは、これらのツールのサブセットまたはこれらのツールすべてをまったく持たないエンコーダとして実現されてもよい。

なお、実施の形態１では、ＡＣ信号生成部４１３が、第１の方式及び第２の方式の中から選択した１つの方式にしたがってＡＣ信号を生成する例について説明したが、ＡＣ信号生成部４１３は、３つ以上の方式の中から１つの方式を選択してもよい。すなわち、ＡＣ信号生成部４１３は、複数の方式の中から選択した１つの方式にしたがって、ＡＣ信号を生成して出力し、かつ、選択した１つの方式を示すＡＣフラグを出力すればよい。この場合のＡＣフラグは、複数ビットで構成されるなどして、複数の方式の中から１つの方式を区別可能な態様であればどのようなものであってもよい。

以上説明したように、実施の形態１に係る音信号ハイブリッドエンコーダによれば、符号化の際に、ビット効率の良いＡＣ信号を適応的に選択することができる。すなわち、実施の形態１に係る音信号ハイブリッドエンコーダによれば、低ビットレートの効率的なエンコーダを実現することができる。このようなビットレートの低減効果は、コーデックの切り替えが速い場合、及び、符号化に多くのビットを必要とする低遅延エンコーダの場合に特に顕著となる。

（実施の形態２）
実施の形態２では、音信号ハイブリッドデコーダについて説明する。

図１０は、実施の形態２に係る音信号ハイブリッドデコーダの構成を示すブロック図である。

音信号ハイブリッドデコーダ２００は、ＬＤ解析フィルタバンク５０３と、ＬＤ合成フィルタバンク５００と、ＭＰＳデコーダ５０１と、ＳＢＲデコーダ５０２と、切替部５０５とを備える。また、音信号ハイブリッドデコーダ２００は、ＩＭＤＣＴフィルタバンクを用いたオーディオデコーダ５０６（以下、単にＩＭＤＣＴデコーダ５０６と記載する）と、ＬＰデコーダ５０８と、ＴＣＸデコーダ５１０と、逆量子化器５０７、５０９、５１１、５１４、５１６、及び５１７と、ビットストリームデマルチプレクサ５１５と、ＡＣ出力信号生成部５１３とを備える。

ビットストリームデマルチプレクサ５１５は、ビットストリームのコアコーダインジケータに基づき、ＩＭＤＣＴデコーダ５０６、ＬＰデコーダ５０８、及びＴＣＸデコーダ５１０うちの１つのデコーダと、これに対応する、逆量子化器５０７、５０９、及び５１１のうちの１つの逆量子化器とを選択する。ビットストリームデマルチプレクサ５１５は、選択した逆量子化器を用いてビットストリームデータを逆量子化し、選択したデコーダを用いてビットストリームデータを復号する。逆量子化器５０７、５０９、及び５１１の出力は、それぞれ、ＩＭＤＣＴデコーダ５０６、ＬＰデコーダ５０８、またはＴＣＸデコーダ５１０に入力され、デコーダにおいて時間領域にさらに変換され、第１の狭帯域信号が生成される。なお、以下の説明では、ＩＭＤＣＴデコーダ５０６と、ＴＣＸデコーダ５１０とは、ＩＬＦＤ（ＩｎｖｅｒｓｅＬａｐｐｅｄＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）デコーダとも称される。

切替部５０５は、まず、過去サンプルとの時間の関係に従い（符号化された順番に従い）、第１の狭帯域信号のフレームを整列させる。フレームがＩＭＤＣＴデコーダ５０６で復号されたフレームである場合、切替部５０５は、当該復号対象フレームに窓処理を行うことで得られる重なり部分を追加する。窓は、図５に示されるエンコーダが用いる窓と同じものが用いられ、図５に示される窓は、低遅延を実現するために、短いオーバーラップ領域を有する。

切替部５０５のコーデックの切り替えの際、ＡＣ対象フレーム（以下、切替フレームとも記載する）のフレーム境界周辺のエイリアシング成分は、図２及び図３に示される信号と一致する。また、切替部５０５は、第２の狭帯域信号を生成する。

ビットストリームに含まれるＡＣ信号は、逆量子化器５１４で逆量子化される。ビットストリームに含まれるＡＣフラグは、過去の狭帯域信号を用いた追加のエイリアシング除去成分の生成など、ＡＣ信号の次の処理方法を決定する。ＡＣ出力信号生成部５１３は、ＡＣフラグに応じて逆量子化済のＡＣ信号と、切替部５０５が生成したＡＣ成分（ｘ、ｙ、ｚなど）とを合計することで、ＡＣ＿ｏｕｔ信号（ＡＣ出力信号）を生成する。

加算器５０４（加算部）は、切替部５０５によって整列され、オーバーラップ領域が追加された第２の狭帯域信号にＡＣ＿ｏｕｔ信号を加算し、ＡＣ対象フレームのフレーム境界におけるエイリアシング成分を除去する。エイリアシング成分を除去した信号を第３の狭帯域信号と称す。

ＬＤ解析フィルタバンク５０３は、第３の狭帯域信号を処理し、ハイブリッド時間／周波数表現で表される狭帯域サブバンド信号を生成する。具体的には、非特許文献２に示される低遅延ＱＭＦフィルタバンク等が候補として挙げられるが、これに限定されるものではない。

ＳＢＲデコーダ５０２（帯域幅拡張復号部）は、狭帯域サブバンド信号をより高周波の領域に拡大する。拡大方法は、より高周波の帯域へ低周波帯域がコピーされる「パッチアップ」法か、位相ボコーダの原理に基づき低周波帯域のハーモニクスを伸長する「ストレッチアップ」法のいずれかである。拡大（合成）された高周波領域の特性、特にエネルギー、ノイズフロア及び音色は、逆量子化器５１７により逆量子化されたＳＢＲパラメータに基づき調整される。これにより、帯域幅が拡張されたサブバンド信号が生成される。

ＭＰＳデコーダ５０１（マルチチャンネル拡張復号部）は、逆量子化器５１６により逆量子化されたＭＰＳパラメータを用いて、帯域幅が拡張されたサブバンド信号からマルチチャンネルサブバンド信号を生成する。たとえば、ＭＰＳデコーダ５０１は、チャンネル間相関パラメータに基づいて、無相関信号とダウンミックス信号とをミックスする。ＭＰＳデコーダ５０１は、さらに、そのミックス後の信号の振幅と位相をチャンネル間レベル差パラメータ及びチャンネル間位相差パラメータに基づき調整し、マルチチャンネルサブバンド信号を生成する。

ＬＤ合成フィルタバンク５００は、マルチチャンネルサブバンド信号を、ハイブリッド時間／周波数領域から時間領域に再変換し、時間領域のマルチチャンネル信号を出力する。

以下、実施の形態２に係る音信号ハイブリッドデコーダ２００の特徴動作である、ＡＣ出力信号生成部５１３の構成及び動作について詳細に説明する。

図１１は、ＡＣ出力信号生成部５１３の構成の一例を示すブロック図である。

図１１に示されるように、ＡＣ出力信号生成部５１３は、第１のＡＣ候補生成器８００と、第２のＡＣ候補生成器８０１と、ＡＣ候補選択器８０２及び８０３とを備える。

第１のＡＣ候補生成器８００及び第２のＡＣ候補生成器８０１のそれぞれは、逆量子化されたＡＣ信号と復号された狭帯域信号とを用いてＡＣ候補（ＡＣ出力信号、ＡＣ＿ｏｕｔ）を算出する。ＡＣ候補選択器８０２及び８０３は、エイリアシング除去を行うため、ＡＣフラグに基づき第１のＡＣ候補生成器８００及び第２のＡＣ候補生成器８０１のうちから１つを選択する。

図１２は、ＡＣ出力信号生成部５１３の動作の一例を示すフローチャートである。

音信号ハイブリッドデコーダ２００では、上述のように、取得したフレームを当該フレームの符号化方式に応じて復号する処理が行われる（Ｓ２０１、Ｓ２０２でＮｏ）。

ＡＣ出力信号生成部５１３がＡＣフラグを取得した場合（Ｓ２０２でＹｅｓ）、ＡＣ出力信号生成部５１３は、ＡＣフラグに応じた処理を行い、ＡＣ＿ｏｕｔ信号を生成する（Ｓ２０３）。

具体的には、まず、ＡＣ候補選択器８０２及び８０３は、ＡＣフラグが示すＡＣ候補生成器を選択する。ＡＣ候補選択器８０２及び８０３は、ＡＣフラグが第１の方式を示す場合は、第１のＡＣ候補生成器８００を選択する。ＡＣ候補選択器８０２及び８０３は、ＡＣフラグが第２の方式を示す場合は、第２のＡＣ候補生成器８０１を選択する。

続いて、ＡＣ出力信号生成部５１３（ＡＣ候補選択器８０２及び８０３）は、選択したＡＣ候補生成器を用いてＡＣ＿ｏｕｔ信号を生成する。言い換えれば、ＡＣ出力信号生成部５１３は、選択したＡＣ候補生成器にＡＣ＿ｏｕｔ信号を生成させる。具体的には、第１のＡＣ候補生成器８００は、第１のＡＣ＿ｏｕｔ信号を生成する。第２のＡＣ候補生成器８０１は、第２のＡＣ＿ｏｕｔ信号を生成する。

最後に、加算器５０４は、ＡＣ出力信号生成部５１３が出力したＡＣ＿ｏｕｔ信号を切替部５０５から出力される第２の狭帯域信号と加算し、エイリアシングの除去を行う（Ｓ２０４）。

次に、ＡＣ＿ｏｕｔ信号の生成方法について詳細に説明する。以下の説明では、実施の形態１で示される例に対応するＡＣ＿ｏｕｔ信号の生成方法（算出方法）を示すが、ＡＣ＿ｏｕｔ信号の生成方法は、このような具体例に限定されるものではなく、どのような方法であってもよい。

まず、符号化方式がＬＰ符号化から変換符号化（ＭＤＣＴ／ＴＣＸ）へ切り替わる場合について、上述の図２を参照しながら説明する。第１のＡＣ候補生成器８００は、第１のＡＣ＿ｏｕｔ信号を以下のように算出する。

第２のＡＣ候補生成器８０１は、第２のＡＣ＿ｏｕｔ信号を以下のように算出する。

ここで、ｘ、ｙ及びｚは、以下の窓処理をした狭帯域信号である。ｘは、切替部５０５が、時間整列し窓処理した信号である。ｙは、切替部５０５が２つの窓を掛けて反転した、先行ＬＰフレームを復号した信号であり、式（１０）と一致する。ｚは、切替部５０５が窓処理した、先行ＬＰフレームのＺＩＲであり、式（１１）と一致する。

同様に、符号化方式が変換符号化（ＭＤＣＴ／ＴＣＸ）からＬＰ符号化へ切り替わる場合について図３を参照しながら説明する。第１のＡＣ候補生成器８００は第１のＡＣ＿ｏｕｔ信号を以下のように算出する。

ここで、ｘは、切替部５０５が時間整列し窓処理した信号である。ｙは、切替部５０５が２つの窓を掛けて反転し、後続ＬＰフレームを復号した信号であり、式（１５）と一致する。

以上説明したように、実施の形態２に係る音信号ハイブリッドデコーダ２００によれば、ＡＣフラグに応じて、ＡＣ候補選択器８０２及び８０３は、第１のＡＣ候補生成器８００または第２のＡＣ候補生成器８０１を作動させ、ＡＣ＿ｏｕｔ１またはＡＣ＿ｏｕｔ２を出力する。これにより、音信号ハイブリッドデコーダ２００は、実施の形態１に係る音信号ハイブリッドエンコーダ１００で符号化された信号のエイリアシング成分を除去することができる。

なお、実施の形態２に係る音信号ハイブリッドデコーダは、少なくとも重複周波数領域変換デコーダ（ＩＬＦＤデコーダ。例えば、ＭＤＣＴ、ＴＣＸ）と、線形予測デコーダ（ＬＰデコーダ）とを含むデコーダであれば、どのような構成のデコーダとして実現されてもよい。例えば、実施の形態２に係る音信号ハイブリッドデコーダは、ＴＣＸデコーダ及びＬＰデコーダのみを含むデコーダとして実現されてもよい。また、実施の形態２における帯域幅拡張ツールとマルチチャンネル拡張ツールとは、任意の低ビットレートツールであり、必須の構成要素ではない。実施の形態２に係る音信号ハイブリッドデコーダは、これらのツールのサブセットまたはこれらのツールすべてをまったく持たないデコーダとして実現されてもよい。

以上説明したように、実施の形態２に係る音信号ハイブリッドデコーダによれば、ＡＣフラグに応じて、実施の形態１に係る音信号ハイブリッドエンコーダによって符号化された信号を適切に復号することができる。実施の形態１に係る音信号ハイブリッドエンコーダは、符号化の際に、ビット効率の良いＡＣ信号を適応的に選択する。このため、実施の形態２に係る音信号ハイブリッドデコーダによれば、低ビットレートの効率的なデコーダが実現される。

このようなビットレートの低減効果は、コーデックの切り替えが速い場合、及び、符号化に多くのビットを必要とする低遅延エンコーダの場合に特に顕著となる。

（変形例）
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。

（１）上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムで実現され得る。ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、ＲＯＭからＲＡＭにコンピュータプログラムをロードし、ロードしたコンピュータプログラムにしたがって演算等の動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されてもよい。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールには、上記の超多機能ＬＳＩが含まれてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有してもよい。

（４）本発明は、上記に示す方法で実現されてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムで実現してもよいし、コンピュータプログラムからなるデジタル信号で実現してもよい。

また、本発明は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙ(登録商標) Ｄｉｓｃ）、半導体メモリなどに記録したもので実現してもよい。また、これらの記録媒体に記録されているデジタル信号で実現してもよい。

また、本発明は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、メモリは、コンピュータプログラムを記憶しており、マイクロプロセッサは、コンピュータプログラムにしたがって動作してもよい。

また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

（５）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

なお、本発明は、これらの実施の形態またはその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態またはその変形例に施したもの、あるいは異なる実施の形態またはその変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。

本発明は、オーディオブック、放送システム、携帯型メディアデバイス、携帯通信端末（例えば、スマートフォン、タブレット型コンピュータ）、テレビ会議装置、及びネットワーク上の音楽演奏など、音声コンテンツ又は音楽コンテンツを含む信号の符号化に関連する用途に用いられる。

１００音信号ハイブリッドエンコーダ
２００音信号ハイブリッドデコーダ
４００、５０３ＬＤ解析フィルタバンク
４０１ＭＰＳエンコーダ
４０２ＳＢＲエンコーダ
４０３、５００ＬＤ合成フィルタバンク
４０４信号解析部
４０５、５０５切替部
４０６ＭＤＣＴエンコーダ
４０７、４０９、４１１、４１４、４１６、４１７量子化器
４０８ＬＰエンコーダ
４１０ＴＣＸエンコーダ
４１２ローカルデコーダ
４１３ＡＣ信号生成部
４１５ビットストリームマルチプレクサ
５０１ＭＰＳデコーダ
５０２ＳＢＲデコーダ
５０４加算器（加算部）
５０６ＩＭＤＣＴデコーダ
５０７、５０９、５１１、５１４、５１６、５１７逆量子化器
５０８ＬＰデコーダ
５１０ＴＣＸデコーダ
５１３ＡＣ出力信号生成部
５１５ビットストリームデマルチプレクサ
７００、８００第１のＡＣ候補生成器
７０１、８０１第２のＡＣ候補生成器
７０２、８０２、８０３ＡＣ候補選択器

Claims

音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、
前記フレームをＬＦＤ（ＬａｐｐｅｄＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）変換することによって当該フレームを符号化したＬＦＤフレームを生成するＬＦＤエンコーダと、
前記フレームの線形予測係数を算出することによって当該フレームを符号化したＬＰ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）フレームを生成するＬＰエンコーダと、
前記信号解析部の判断結果に応じて、前記フレームを前記ＬＦＤエンコーダによって符号化するか、前記ＬＰエンコーダによって符号化するかの切替を行う切替部と、
前記切替部の切替制御によって前記ＬＰフレームと連続する前記ＬＦＤフレームであるＡＣ（ＡｌｉａｓｉｎｇＣａｎｃｅｌ）対象フレームの少なくとも一部を復号した信号と、前記ＡＣ対象フレームに連続する前記ＬＰフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、
前記ＡＣ対象フレームの復号において生じるエイリアシングの除去に用いられるＡＣ信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するＡＣ信号生成部とを備え、
前記ＡＣ信号生成部は、前記ＡＣ対象フレームが前記ＬＰフレームの直後に連続する場合、または前記ＡＣ対象フレームが前記ＬＰフレームの直前に連続するフレームである場合において、（１）複数の方式の中から選択した１つの方式にしたがって、前記ＡＣ信号を生成して出力し、かつ、（２）前記選択した１つの方式を示すＡＣフラグを出力する
音信号ハイブリッドエンコーダ。
前記ＡＣ信号生成部は、第１の方式及び前記第１の方式とは異なる第２の方式の中から選択した１つの方式にしたがって前記ＡＣ信号を生成して出力する
請求項１に記載の音信号ハイブリッドエンコーダ。
さらに、前記ＡＣ信号を量子化する量子化器を備え、
前記ＡＣ信号生成部は、前記第１の方式及び前記第２の方式のそれぞれを用いて２つの前記ＡＣ信号を生成し、生成した２つの前記ＡＣ信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記ＡＣ信号の生成に用いられた方式の前記ＡＣ信号を出力する
請求項２に記載の音信号ハイブリッドエンコーダ。
前記ＡＣ対象フレームが前記ＬＰフレームの直後に連続するフレームである場合、
前記第１の方式は、前記ＡＣ対象フレームの直前のＬＰフレームを窓処理したゼロ入力応答を用いて前記ＡＣ信号を生成する方式であり、
前記第２の方式は、前記ゼロ入力応答を用いることなく前記ＡＣ信号を生成する方式である
請求項２または３に記載の音信号ハイブリッドエンコーダ。
前記第１の方式は、ＵＳＡＣ（ＵｎｉｆｉｅｄＳｐｅｅｃｈＡｎｄＡｕｄｉｏＣｏｄｅｃ）において規格化された方式であり、
前記第２の方式は、生成されるＡＣ信号の量子化後の符号量が前記第１の方式よりも小さくなることが見込まれる方式である
請求項２〜４のいずれか１項に記載の音信号ハイブリッドエンコーダ。
前記ＡＣ信号生成部は、前記音信号に含まれるフレームのフレームサイズが所定の大きさよりも大きい場合は、前記第１の方式を選択し、前記音信号に含まれるフレームのフレームサイズが前記所定の大きさ以下の場合は、前記第２の方式を選択する
請求項５に記載の音信号ハイブリッドエンコーダ。
さらに、前記ＡＣ信号を量子化する量子化器を備え、
前記ＡＣ信号生成部は、前記第１の方式で前記ＡＣ信号を生成し、前記第１の方式で生成した前記ＡＣ信号の前記量子化器による量子化後の符号量が所定の閾値よりも小さい場合は、前記第１の方式を選択し、
前記第１の方式で生成した前記ＡＣ信号の前記量子化器による量子化後の符号量が所定の閾値以上である場合は、さらに前記第２の方式で前記ＡＣ信号を生成し、前記第１の方式で生成した前記ＡＣ信号及び前記第２の方式で生成した前記ＡＣ信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記ＡＣ信号を出力する
請求項２〜６のいずれか１項に記載の音信号ハイブリッドエンコーダ。
前記ＡＣ信号生成部は、さらに、
前記第１の方式で前記ＡＣ信号を生成する第１のＡＣ候補生成器と、
前記第２の方式で前記ＡＣ信号を生成する第２のＡＣ候補生成器と、
（１）前記第１のＡＣ候補生成器及び前記第２のＡＣ候補生成器のうちから選択した１つのＡＣ候補生成器が生成する前記ＡＣ信号を出力し、かつ、（２）出力される前記ＡＣ信号が前記第１の方式及び前記第２の方式のいずれの方式を用いて生成されたかを示す前記ＡＣフラグを出力するＡＣ候補選択器とを備える
請求項２〜７のいずれか１項に記載の音信号ハイブリッドエンコーダ。
さらに、
入力信号に対して時間周波数領域表現に変換した信号である入力サブバンド信号を生成するＬＤ（ＬｏｗＤｅｌａｙ）解析フィルタバンクと、
前記入力サブバンド信号から、マルチチャンネル拡張パラメータ及びダウンミックスサブバンド信号を生成するマルチチャンネル拡張部と、
前記ダウンミックスサブバンド信号から、帯域幅拡張パラメータ及び狭帯域サブバンド信号を生成する帯域幅拡張部と、
前記狭帯域サブバンド信号を時間周波数領域表現から時間領域表現に変換した信号である前記音信号を生成するＬＤ合成フィルタバンクと、
前記マルチチャンネル拡張パラメータ、前記帯域幅拡張パラメータ、出力された前記ＡＣ信号、前記ＬＦＤフレーム、及び前記ＬＰフレームを量子化する量子化器と、
前記量子化器が量子化した信号及び前記ＡＣフラグを多重化して送信するビットストリームマルチプレクサとを備える
請求項１〜８のいずれか１項に記載の音信号ハイブリッドエンコーダ。
前記ＬＦＤエンコーダは、ＴＣＸ方式によって前記フレームを符号化する
請求項１〜９のいずれか１項に記載の音信号ハイブリッドエンコーダ。
前記ＬＦＤエンコーダは、ＭＤＣＴによって前記フレームを符号化し、
前記切替部は、前記ＬＦＤエンコーダが符号化する前記フレームに対し窓処理を行い、
前記窓処理に用いられる窓は、前記フレームの長さの２分の１よりも短い期間において単調増加または単調減少する
請求項１〜１０のいずれか１項に記載の音信号ハイブリッドエンコーダ。
ＬＦＤ変換により符号化されたＬＦＤフレームと、線形予測係数を用いて符号化されたＬＰフレームと、前記ＬＰフレームと連続する前記ＬＦＤフレームであるＡＣ対象フレームのエイリアシングの除去を行うためのＡＣ信号とが含まれる符号化信号を復号する音信号ハイブリッドデコーダであって、
前記ＬＦＤフレームを復号するＩＬＦＤ（ＩｎｖｅｒｓｅＬａｐｐｅｄＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）デコーダと、
前記ＬＰフレームを復号するＬＰデコーダと、
前記ＩＬＦＤデコーダが復号したフレームに窓処理を行ったフレームと、前記ＬＰデコーダが復号したフレームとを順番に整列した第２の狭帯域信号を出力する切替部と、
前記ＡＣ信号の生成に用いられた方式を示すＡＣフラグを取得し、前記ＡＣフラグが示す方式に応じて、前記切替部、前記ＩＬＦＤデコーダ、または前記ＬＰデコーダから出力される信号を前記ＡＣ信号に加算したＡＣ出力信号を生成するＡＣ出力信号生成部と、
前記第２の狭帯域信号のうちの前記ＡＣ対象フレームに相当する部分に、前記ＡＣ出力信号を加算した第３の狭帯域信号を出力する加算部とを備える
音信号ハイブリッドデコーダ。
さらに、
量子化された前記符号化信号と、前記ＡＣフラグとが含まれるビットストリームを取得するビットストリームデマルチプレクサと、
前記量子化された前記符号化信号を逆量子化して前記符号化信号を生成する逆量子化器と、
前記加算部から出力される前記第３の狭帯域信号を時間周波数領域表現に変換することにより、狭帯域サブバンド信号を生成するＬＤ解析フィルタバンクと、
前記逆量子化器により生成された符号化信号に含まれる帯域幅拡張パラメータを前記狭帯域サブバンド信号に適用することにより、高周波信号を合成し、帯域幅が拡張されたサブバンド信号を生成する帯域幅拡張復号部と、
前記逆量子化器により生成された符号化信号に含まれるマルチチャンネル拡張パラメータを前記帯域幅が拡張されたサブバンド信号に適用することにより、マルチチャンネルサブバンド信号を生成するマルチチャンネル拡張復号部と、
前記マルチチャンネルサブバンド信号を時間周波数領域表現から時間領域表現に変換した信号であるマルチチャンネル信号を生成するＬＤ合成フィルタバンクとを備える
請求項１２に記載の音信号ハイブリッドデコーダ。
前記ＡＣ信号は、第１の方式または前記第１の方式とは異なる第２の方式によって生成され、
前記ＡＣ出力信号生成部は、さらに、
前記第１の方式で生成された前記ＡＣ信号に対応する前記ＡＣ出力信号を生成する第１のＡＣ候補生成器と、
前記第２の方式で生成された前記ＡＣ信号に対応する前記ＡＣ出力信号を生成する第２のＡＣ候補生成器と、
前記ＡＣフラグに応じて、前記第１のＡＣ候補生成器及び前記第２のＡＣ候補生成器のいずれか一方を選択し、選択したＡＣ候補生成器に前記ＡＣ出力信号を生成させるＡＣ候補選択器とを備える
請求項１２または１３に記載の音信号ハイブリッドデコーダ。
音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析ステップと、
前記フレームをＬＦＤ（ＬａｐｐｅｄＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）変換することによって当該フレームを符号化したＬＦＤフレームを生成するＬＦＤエンコードステップと、
前記フレームの線形予測係数を算出することによって当該フレームを符号化したＬＰ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）フレームを生成するＬＰエンコードステップと、
前記信号解析ステップの判断結果に応じて、前記フレームを前記ＬＦＤエンコードステップにおいて符号化するか、前記ＬＰエンコードステップにおいて符号化するかの切替を行う切替ステップと、
前記切替ステップの切替制御によって前記ＬＰフレームと連続する前記ＬＦＤフレームであるＡＣ（ＡｌｉａｓｉｎｇＣａｎｃｅｌ）対象フレームの少なくとも一部を復号した信号と、前記ＡＣ対象フレームに連続する前記ＬＰフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコードステップと、
前記ＡＣ対象フレームの復号において生じるエイリアシングの除去に用いられるＡＣ信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するＡＣ信号生成ステップとを含み、
前記ＡＣ信号生成ステップでは、前記ＡＣ対象フレームが前記ＬＰフレームの直後に連続する場合、または前記ＡＣ対象フレームが前記ＬＰフレームの直前に連続するフレームである場合において、（１）複数の方式の中から選択した１つの方式にしたがって、前記ＡＣ信号を生成して出力し、かつ、（２）前記選択した１つの方式を示すＡＣフラグを出力する
音信号符号化方法。
請求項１５に記載の音信号符号化方法をコンピュータに実行させるためのプログラム。
音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、
前記フレームをＬＦＤ（ＬａｐｐｅｄＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）変換することによって当該フレームを符号化したＬＦＤフレームを生成するＬＦＤエンコーダと、
前記フレームの線形予測係数を算出することによって当該フレームを符号化したＬＰ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）フレームを生成するＬＰエンコーダと、
前記信号解析部の判断結果に応じて、前記フレームを前記ＬＦＤエンコーダによって符号化するか、前記ＬＰエンコーダによって符号化するかの切替を行う切替部と、
前記切替部の切替制御によって前記ＬＰフレームと連続する前記ＬＦＤフレームであるＡＣ（ＡｌｉａｓｉｎｇＣａｎｃｅｌ）対象フレームの少なくとも一部を復号した信号と、前記ＡＣ対象フレームに連続する前記ＬＰフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、
前記ＡＣ対象フレームの復号において生じるエイリアシングの除去に用いられるＡＣ信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するＡＣ信号生成部とを備え、
前記ＡＣ信号生成部は、前記ＡＣ対象フレームが前記ＬＰフレームの直後に連続する場合、または前記ＡＣ対象フレームが前記ＬＰフレームの直前に連続するフレームである場合において、（１）複数の方式の中から選択した１つの方式にしたがって、前記ＡＣ信号を生成して出力し、かつ、（２）前記選択した１つの方式を示すＡＣフラグを出力する
集積回路。
ＬＦＤ変換により符号化されたＬＦＤフレームと、線形予測係数を用いて符号化されたＬＰフレームと、前記ＬＰフレームと連続する前記ＬＦＤフレームであるＡＣ対象フレームのエイリアシングの除去を行うためのＡＣ信号とが含まれる符号化信号を復号する音信号復号方法であって、
前記ＬＦＤフレームを復号するＩＬＦＤデコードステップと、
前記ＬＰフレームを復号するＬＰデコードステップと、
前記ＩＬＦＤデコードステップで復号したフレームに窓処理を行ったフレームと、前記ＬＰデコードステップにおいて復号したフレームとを順番に整列した第２の狭帯域信号を出力する切替ステップと、
前記ＡＣ信号の生成に用いられた方式を示すＡＣフラグを取得し、前記ＡＣフラグが示す方式に応じて、前記切替ステップ、前記ＩＬＦＤデコードステップ、または前記ＬＰデコードステップにおいて出力される信号を前記ＡＣ信号に加算したＡＣ出力信号を生成するＡＣ出力信号生成ステップと、
前記第２の狭帯域信号のうちの前記ＡＣ対象フレームに相当する部分に、前記ＡＣ出力信号を加算した第３の狭帯域信号を出力する加算ステップとを含む
音信号復号方法。
請求項１８に記載の音信号復号方法をコンピュータに実行させるためのプログラム。
ＬＦＤ変換により符号化されたＬＦＤフレームと、線形予測係数を用いて符号化されたＬＰフレームと、前記ＬＰフレームと連続する前記ＬＦＤフレームであるＡＣ対象フレームのエイリアシングの除去を行うためのＡＣ信号とが含まれる符号化信号を復号する集積回路であって、
前記ＬＦＤフレームを復号するＩＬＦＤデコーダと、
前記ＬＰフレームを復号するＬＰデコーダと、
前記ＩＬＦＤデコーダが復号したフレームに窓処理を行ったフレームと、前記ＬＰデコーダが復号したフレームとを順番に整列した第２の狭帯域信号を出力する切替部と、
前記ＡＣ信号の生成に用いられた方式を示すＡＣフラグを取得し、前記ＡＣフラグが示す方式に応じて、前記切替部、前記ＩＬＦＤデコーダ、または前記ＬＰデコーダから出力される信号を前記ＡＣ信号に加算したＡＣ出力信号を生成するＡＣ出力信号生成部と、
前記第２の狭帯域信号のうち、復号後の前記ＡＣ対象フレームに相当する部分に、前記ＡＣ出力信号を加算した第３の狭帯域信号を出力する加算部とを備える
集積回路。