JPWO2008132826A1

JPWO2008132826A1 - ステレオ音声符号化装置およびステレオ音声符号化方法

Info

Publication number: JPWO2008132826A1
Application number: JP2009511677A
Authority: JP
Inventors: コクセンチョン
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-04-20
Filing date: 2008-04-18
Publication date: 2010-07-22
Also published as: US20100121633A1; WO2008132826A1

Abstract

ビットレートを抑えつつ、チャネル間相関が低いステレオ音声信号のＩＣＰ精度を向上することができるステレオ音声符号化装置を提供する。この装置（１００）において、モノラル信号生成部（１０１）は、左チャネル信号Ｌと右チャネル信号Ｒとの平均値をモノラル信号Ｍとして生成し、適応合成部（１０３）は、合成比率調整部（１０５）から入力される合成比率αを用いて左チャネル信号Ｌと右チャネル信号Ｒとの合成信号Ｌ２を生成し、ＬＰＣ分析部（１０２、１０４）それぞれは、モノラル信号Ｍおよび合成信号Ｌ２それぞれに対しＬＰＣ分析を行い、線形予測残差信号Ｍｅ、Ｌ２ｅそれぞれを生成し、合成比率調整部（１０５）は、まず、合成比率αを１．０に初期化し、次いで線形予測残差信号Ｌ２ｅとＭｅとの相関値が所定値以上となるまで、合成比率αを減少し、ＩＣＰ分析部（１０６）は、ＭｅおよびＬ２ｅを用いてＩＣＰ分析を行う。

Description

本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置およびこれに対応するステレオ音声符号化方法に関する。

携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信（モノラル通信）が主流である。しかし、今後、第４世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信（ステレオ通信）が普及することが期待される。

例えば、音楽をＨＤＤ（ハードディスク）搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。

また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さいため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号とからなるスケーラブル符号化がある。

このようなスケーラブル符号化において、モノラル信号からステレオ信号を合成する技術として、例えば非特許文献１記載のＭＰＥＧ２／４ＡＡＣ(Moving Picture Experts Group ２／４ Advanced Audio Coding)に使用されるＩＳＣ（Intensity Stereo Coding：強度ステレオ符号化）、非特許文献２記載のＭＰＥＧ４エンハンストＡＡＣまたは非特許文献３記載のＭＰＥＧサラウンドに使用されるＢＣＣ（Binaural Cue Coding：バイノーラルキュー符号化）などがある。これらの符号化においては、モノラル信号からステレオ信号の左チャネル信号および右チャネル信号を再生する際は、復号される左右両チャネル信号のエネルギ比が、符号化側において符号化された元の左右両チャネル信号のエネルギ比と等しくなるように、モノラル信号のエネルギを復号される左右両チャネル信号に配分する。また、これらの符号化において音声幅を向上するために、逆相関器を用いて再生信号に残響成分を加える。

また、モノラル信号からステレオ信号、例えば左チャネル信号および右チャネル信号を再生する別の方法としては、モノラル信号に対しＦＩＲ（Finite Impulse Response）フィルタリング処理を行ってステレオ信号の左右両チャネル信号を再構築するチャネル間予測（ＩＣＰ：Inter-channel Prediction）がある。ＩＣＰ符号化に用いられるＦＩＲフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化（ＭＳＥ：Least mean squared error）により求められる。このようなＩＣＰ方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年「MPEGサラウンド」ISO/IEC 23003-1,2006年

しかしながら、ＩＣＰ方式のステレオ符号化は、左チャネル信号および右チャネル信号の予測に用いられる情報としてチャネル間固有の相関関係を用いるため、チャネル間相関が低い音声信号に対しＩＣＰ方式の符号化を行う場合、復号音声の音質が劣化するという問題が生じる。特に、時間領域における信号波形の遷移が滑らかでない信号、例えばノイズフロア上の規則的ピッチスパイクが特徴となる残差信号の有声部に対するＩＣＰは難しくなる。

同一音源で発生した信号を異なる位置で取得した左右両チャネル信号それぞれは、音源からの距離が異なるため、一方のチャネル信号は、他方のチャネル信号の時間的に遅延された複製信号となる。左右両チャネル間のこの遅延は、ピッチスパイク間の不適切な配置（misalignment）を生じる。このピッチスパイクのずれは、左右両チャネル信号間の相関を低下させる原因となり、ＩＣＰの予測が適切に行われない原因となる。そして、ＩＣＰの予測が適切に行われないことにより、復号音声のフレーム間不連続の発生、および復号音声のステレオ音像の不安定性を招く。

このような、問題を解決するためには、ＩＣＰの予測次数を向上させる方法が考えられる。しかし、復号音声のフレーム間不連続性、およびステレオ音像の不安定性を、聞き手に不快感を与えない程度に抑えるためには、ＩＣＰ次数をほぼフレームサイズに近い次数まで向上する必要があり、これはビットレートの大幅な増加を意味する。

本発明の目的は、ビットレートを抑えつつ、チャネル間相関が低いステレオ信号のＩＣＰ性能を向上させることができるステレオ音声符号化装置およびステレオ音声符号化方法を提供することである。

本発明のステレオ音声符号化装置は、２つのチャネル信号からなるステレオ音声信号の第１チャネル信号と第２チャネル信号とを用いて得られる代表値をモノラル信号として生成するモノラル信号生成手段と、第１チャネル用合成比率および第２チャネル用合成比率を調整する合成比率調整手段と、前記合成比率調整手段が調整した第１チャネル用合成比率と前記第１チャネル信号と前記第２チャネル信号とを用いて第１チャネル用合成信号を生成し、さらに、前記合成比率調整手段が調整した第２チャネル用合成比率と前記第１チャネル信号と前記第２チャネル信号とを用いて第２チャネル用合成信号を生成する適応合成手段と、前記モノラル信号と前記第１チャネル用合成信号とを用いて第１チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第２チャネル合成信号とを用いて第２チャネル用チャネル間予測を行うチャネル間予測手段と、を具備し、前記合成比率調整手段は、前記モノラル信号と前記第１チャネル用合成信号との相関に基づいて前記第１チャネル用合成比率を調整し、さらに前記モノラル信号と前記第２チャネル用合成信号との相関に基づいて前記第２チャネル用合成比率を調整する構成を採る。

本発明のステレオ音声符号化方法は、２つのチャネル信号からなるステレオ音声信号の第１チャネル信号と第２チャネル信号とを用いて得られる代表値をモノラル信号として生成するステップと、第１チャネル用合成比率および第２チャネル用合成比率を調整する合成比率調整ステップと、前記合成比率調整手段が調整した第１チャネル用合成比率および第２チャネル合成比率それぞれを用いて、前記第１チャネル信号と前記第２チャネル信号とを合成し第１チャネル用合成信号および第２チャネル合成信号それぞれを生成するステップと、前記モノラル信号と前記第１チャネル用合成信号とを用いて第１チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第２チャネル合成信号とを用いて第２チャネル用チャネル間予測を行うステップと、を具備し、前記合成比率調整ステップにおいては、前記モノラル信号と前記第１チャネル用合成信号との相関に基づいて前記第１チャネル用合成比率を調整し、さらに前記モノラル信号と前記第２チャネル用合成信号との相関に基づいて前記第２チャネル用合成比率を調整するようにした。

本発明によれば、ステレオ音声符号化において、ビットレートを抑えつつ、チャネル間相関が低い音声信号に対するＩＣＰ性能を向上させることができる。

本発明の一実施の形態に係るステレオ音声符号化装置の主要な構成を示すブロック図本発明の一実施の形態に係るステレオ音声符号化装置における合成比率の調整手順を示すフロー図本発明の一実施の形態に係るステレオ音声復号装置の主要な構成を示すブロック図本発明の一実施の形態に係るステレオ音声符号化装置の変形例の主要な構成を示すブロック図本発明の一実施の形態に係るステレオ音声符号化装置の変形例の主要な構成を示すブロック図本発明の一実施の形態に係るステレオ音声復号装置の変形例の主要な構成を示すブロック図

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

図１は、本発明の実施の形態に係るステレオ音声符号化装置１００の主要な構成を示すブロック図である。以下、ステレオ信号として左チャネルおよび右チャネルの２つのチャネルからなる場合を例にとって説明する。なお、左チャネル、右チャネル、Ｌ、Ｒという表記は、説明の便宜上の名称であって、必ずしも、左、右、という位置的条件を限定するものではない。

図１において、ステレオ音声符号化装置１００は、モノラル信号生成部１０１、ＬＰＣ(Linear Prediction Coefficients)分析部１０２、適応合成部１０３、ＬＰＣ分析部１０４、合成比率調整部１０５、ＩＣＰ分析部１０６、ＩＣＰ係数量子化部１０７、ＬＰＣ係数量子化部１０８、モノラル信号符号化部１０９、相関値算出部１１０、および多重部１１１を備える。

モノラル信号生成部１０１は、ステレオ音声符号化装置１００に入力されるステレオ音声信号、すなわち、左チャネル信号Ｌおよび右チャネル信号Ｒからモノラル信号Ｍを生成して、ＬＰＣ分析部１０２およびモノラル信号符号化部１０９に出力する。モノラル信号Ｍは、本実施の形態においては一例として、下記の式（１）に従い、左チャネル信号Ｌおよび右チャネル信号Ｒの平均値を求めることにより生成される。
Ｍ＝（Ｌ＋Ｒ）／２ …（１）

ＬＰＣ分析部１０２は、モノラル信号生成部１０１から入力されるモノラル信号Ｍを用いてＬＰＣ分析を行い、分析により得られた線形予測係数を用いてモノラル信号Ｍに対する線形予測残差信号Ｍ_ｅを求めて合成比率調整部１０５およびＩＣＰ分析部１０６に出力する。

適応合成部１０３は、合成比率調整部１０５において適応的に調整された左チャネル用合成比率αを用いて、ステレオ音声符号化装置１００に入力される左チャネル信号Ｌおよび右チャネル信号Ｒを下記の式（２）に適用し、左チャネル用合成信号Ｌ_２’’を生成する。また、適応合成部１０３は、得られる左チャネル用合成信号Ｌ_２’’に対して、下記の式（３）に従いエネルギ調整を行い、エネルギ調整された左チャネル用合成信号Ｌ_２をＬＰＣ分析部１０４に出力する。
Ｌ_２’’＝α・Ｌ＋（１−α）・Ｒ …（２）

式（２）に示すように、左チャネル用合成比率αは、左チャネル用合成信号Ｌ_２に含まれる左チャネル信号Ｌおよび右チャネル信号Ｒそれぞれの比率である。式（３）において、ｆｒａｍｅｓｉｚｅは１フレームのサンプル数を示す（以下同様）。式（３）に示すエネルギ調整によれば、左チャネル用合成信号Ｌ_２のエネルギは左チャネル信号Ｌのエネルギと等しくなる。

同様に、適応合成部１０３は、合成比率調整部１０５において適応的に調整された右チャネル用合成比率βを用いて、ステレオ音声符号化装置１００に入力される左チャネル信号Ｌおよび右チャネル信号Ｒを下記の式（４）に適用し、右チャネル用合成信号Ｒ_２’’を生成する。また、適応合成部１０３は、得られる右チャネル用合成信号Ｒ_２’’に対して、下記の式（５）に従いエネルギ調整を行い、エネルギ調整された右チャネル用合成信号Ｒ_２をＬＰＣ分析部１０４に出力する。
Ｒ_２’’＝β・Ｒ＋（１−β）・Ｌ …（４）

ＬＰＣ分析部１０４は、適応合成部１０３から入力される左チャネル用合成信号Ｌ_２に対しＬＰＣ分析を行い、得られる左チャネル用線形予測係数ＬＰＣ_ＬをＬＰＣ係数量子化部１０８に出力し、同様に、適応合成部１０３から入力される右チャネル用合成信号Ｒ_２に対しＬＰＣ分析を行い、得られる右チャネル用線形予測係数ＬＰＣ_ＲをＬＰＣ係数量子化部１０８に出力する。また、ＬＰＣ分析部１０４は、得られた左チャネル用線形予測係数ＬＰＣ_Ｌを用いて、左チャネル合成信号Ｌ_２に対する線形予測残差信号Ｌ_２ｅを求めて合成比率調整部１０５およびＩＣＰ分析部１０６に出力し、同様に、右チャネル用線形予測係数ＬＰＣ_Ｒを用いて、右チャネル合成信号Ｒ_２に対する線形予測残差信号Ｒ_２ｅを求めて合成比率調整部１０５およびＩＣＰ分析部１０６に出力する。

合成比率調整部１０５は、まず、左チャネル用合成比率αを１．０に初期化し、次いで、ＬＰＣ分析部１０４から入力される線形予測残差信号Ｌ_２ｅとＬＰＣ分析部１０２から入力される線形予測残差信号Ｍ_ｅとのフレーム単位での相関値Ｃｏｒｒ_Ｌ（Ｌ_２ｅ，Ｍ_ｅ）が所定の閾値より小さい場合には左チャネル用合成比率αを減少してから適応合成部１０３に出力する。同様に、合成比率調整部１０５は、まず、右チャネル用合成比率βを１．０に初期化し、次いで、ＬＰＣ分析部１０４から入力される線形予測残差信号Ｒ_２ｅとＬＰＣ分析部１０２から入力される線形予測残差信号Ｍ_ｅとのフレーム単位での相関値Ｃｏｒｒ_Ｒ（Ｒ_２ｅ，Ｍ_ｅ）が所定の閾値より小さい場合には右チャネル用合成比率βを減少してから適応合成部１０３に出力する。このように、合成比率調整部１０５は、相関値Ｃｏｒｒ_Ｌ（Ｌ_２ｅ，Ｍ_ｅ）、Ｃｏｒｒ_Ｒ（Ｒ_２ｅ，Ｍ_ｅ）それぞれが所定の閾値以上となるまで、適応合成部１０３、ＬＰＣ分析部１０４とともに合成比率α、βを調整するループ処理をそれぞれ行う。合成比率調整部１０５は、下記の式（６）、（７）に従って相関値Ｃｏｒｒ_Ｌ（Ｌ_２ｅ，Ｍ_ｅ）、Ｃｏｒｒ_Ｒ（Ｒ_２ｅ，Ｍ_ｅ）それぞれを求める。

ＩＣＰ分析部１０６は、ＬＰＣ分析部１０４から入力される線形予測残差信号Ｌ_２ｅおよびＬＰＣ分析部１０２から入力される線形予測残差信号Ｍ_ｅを用いて左チャネル用ＩＣＰ係数ｈ_Ｌを算出しＩＣＰ係数量子化部１０７に出力する。左チャネル用ＩＣＰ係数ｈ_Ｌは、線形予測残差信号Ｍ_ｅから線形予測残差信号Ｌ_２ｅを予測するためのＮ次のＦＩＲフィルタ係数であり、線形予測残差信号Ｌ_２ｅに対する予測信号をＬ^_２ｅとすると、下記の式（８）で示される。

式（８）において、ｎは線形予測残差信号Ｍ_ｅおよびＬ_２ｅのサンプル番号を示し、ｉはＦＩＲフィルタ係数の次数を示す。ＦＩＲフィルタ係数ｈ_Ｌ（ｉ）は平均二乗誤差最小化により求められる。具体的には、ｈ_Ｌ（ｉ）は下記の式（９）に示す平均二乗誤差εを最小にするような値であり、従って下記の式（１０）を満たす値である。式（１０）を解くと式（１１）に示すｈ_Ｌが得られる。

さらに、ＩＣＰ分析部１０６は、ＬＰＣ分析部１０４から入力される線形予測残差信号Ｒ_２ｅおよびＬＰＣ分析部１０２から入力される線形予測残差信号Ｍ_ｅを用いて、左チャネル用ＩＣＰ係数ｈ_Ｌを求める方法と同様な方法で右チャネル用ＩＣＰ係数ｈ_Ｒを求めてＩＣＰ係数量子化部１０７に出力する。

ＩＣＰ係数量子化部１０７は、ＩＣＰ分析部１０６から入力される左チャネル用ＩＣＰ係数ｈ_Ｌおよび右チャネル用ＩＣＰ係数ｈ_Ｒを量子化し、得られる左チャネル用ＩＣＰ係数符号化パラメータおよび右チャネル用ＩＣＰ係数符号化パラメータを多重部１１１に出力する。

ＬＰＣ係数量子化部１０８は、ＬＰＣ分析部１０４から入力される左チャネル用線形予測係数ＬＰＣ_Ｌおよび右チャネル用線形予測係数ＬＰＣ_Ｒを量子化し、得られる左チャネル用ＬＰＣ符号化パラメータおよび右チャネル用ＬＰＣ符号化パラメータを多重部１１１に出力する。

モノラル信号符号化部１０９は、モノラル信号生成部１０１から入力されるモノラル信号Ｍに対し任意の符号化方式によりの符号化を行い、得られるモノラル信号符号化パラメータを多重部１１１に出力する。

相関値算出部１１０は、ステレオ音声符号化装置１００に入力される左チャネル信号Ｌと右チャネル信号Ｒとのフレーム単位での相関値Ｃｏｒｒ（Ｌ，Ｒ）を、下記の式（１２）に従い求めて多重部１１１に出力する。

多重部１１１は、ＩＣＰ係数量子化部１０７から入力される左チャネル用ＩＣＰ係数符号化パラメータ、右チャネル用ＩＣＰ係数符号化パラメータ、ＬＰＣ係数量子化部１０８から入力される左チャネル用ＬＰＣ符号化パラメータ、右チャネル用ＬＰＣ符号化パラメータ、モノラル信号符号化部１０９から入力されるモノラル信号符号化パラメータ、および相関値算出部１１０から入力される相関値Ｃｏｒｒ（Ｌ，Ｒ）を多重し、得られるビットストリームを後述のステレオ音声復号装置２００に出力する。

図２は、ステレオ音声符号化装置１００における合成比率αおよびβの調整手順を示すフロー図である。なお、この図においては左チャネル用合成比率αの調整手順を例にとって説明するが、右チャネル用合成比率βの調整手順はこの図に示す手順と基本的に同様であり、この図において、αをβに、Ｌ_２’’をＲ_２’’に、Ｌ_２ｅをＲ_２ｅに、ｈ_Ｌをｈ_Ｒにそれぞれ置き換えたものとなる。

ステップ（以下、「ＳＴ」と省略する）１０１０において、合成比率調整部１０５は、合成比率αを「１．０」に初期化する。

次いで、ＳＴ１０２０において、適応合成部１０３は、式（２）に従い合成信号Ｌ_２’’を生成する。

次いで、ＳＴ１０３０において、適応合成部１０３は、式（３）に従い合成信号Ｌ_２’’に対しエネルギ調整を行って合成信号Ｌ_２を得る。

次いで、ＳＴ１０４０において、ＬＰＣ分析部１０４は、合成信号Ｌ_２に対しＬＰＣ分析を行い線形予測残差信号Ｌ_２ｅを生成する。

次いで、ＳＴ１０５０において、合成比率調整部１０５は、ＬＰＣ分析部１０４から入力される線形予測残差信号Ｌ_２ｅと、ＬＰＣ分析部１０２から入力される線形予測残差信号Ｍ_ｅとの相関値Ｃｏｒｒ_Ｌ（Ｌ_２ｅ，Ｍ_ｅ）を算出する。

次いで、ＳＴ１０６０において、合成比率調整部１０５は、相関値Ｃｏｒｒ_Ｌ（Ｌ_２ｅ，Ｍ_ｅ）が所定の閾値より小さいか否かを判定する。

ＳＴ１０６０において、相関値Ｃｏｒｒ_Ｌ（Ｌ_２ｅ，Ｍ_ｅ）が所定の閾値より小さいと判定された場合（ＳＴ１０６０：「ＹＥＳ」）には、ＳＴ１０７０において、合成比率調整部１０５は、α＝α−０．１のように合成比率αを調整する。

次いで、ＳＴ１０８０において、合成比率調整部１０５は、合成比率αが「０．５」より大きいか否かを判定する。

ＳＴ１０８０において、合成比率αが「０．５」より大きいと判定された場合（ＳＴ１０８０：「ＹＥＳ」）には、処理手順はＳＴ１０２０に移行する。

このステップにおける判定処理により、合成比率αは０．５≦α≦１．０の範囲に限定される。ここで、合成比率αの値が「１．０」となる場合、合成信号Ｌ_２とモノラル信号Ｍとは最も相違するため、ＩＣＰの予測性能が最も劣る。一方、合成比率αの値が「０．５」に近いほど、合成信号Ｌ_２とモノラル信号Ｍとはより近似するためＩＣＰの予測性能はより優れる。なお、上記において合成比率と比較する値は「０．５」に限定されるものではなく、適宜適切な値に設定できることは言うまでもない。

一方、ＳＴ１０６０において、相関値Ｃｏｒｒ_Ｌ（Ｌ_２ｅ，Ｍ_ｅ）が所定の閾値以上であると判定された場合（ＳＴ１０６０：「ＮＯ」）、またはＳＴ１０８０において、合成比率αが「０．５」以下であると判定された場合（ＳＴ１０８０：「ＮＯ」）には、ＳＴ１０９０において、ＩＣＰ分析部１０６は、ＬＰＣ分析部１０４から入力される線形予測残差信号Ｌ_２ｅおよびＬＰＣ分析部１０２から入力される線形予測残差信号Ｍ_ｅを用いてＩＣＰ係数ｈ_Ｌを算出する。

図３は、本実施の形態に係るステレオ音声復号装置２００の主要な構成を示すブロック図である。

図３において、ステレオ音声復号装置２００は、分離部２０１、モノラル信号復号部２０２、ＬＰＣ分析部２０３、ＩＣＰ係数復号部２０４、ＩＣＰ合成部２０５、ＬＰＣ係数復号部２０６、ＬＰＣ合成部２０７、およびステレオ信号再構築部２０８を備える。

分離部２０１は、ステレオ音声符号化装置１００から伝送されるビットストリームをモノラル信号符号化パラメータ、左チャネル用ＩＣＰ係数符号化パラメータ、右チャネル用ＩＣＰ係数符号化パラメータ、左チャネル用ＬＰＣ符号化パラメータ、右チャネル用ＬＰＣ符号化パラメータ、および相関値Ｃｏｒｒ（Ｌ，Ｒ）に分離する。分離部２０１は、モノラル信号符号化パラメータをモノラル信号復号部２０２に、左チャネル用ＩＣＰ係数符号化パラメータおよび右チャネル用ＩＣＰ係数符号化パラメータをＩＣＰ係数復号部２０４に、左チャネル用ＬＰＣ符号化パラメータおよび右チャネル用ＬＰＣ符号化パラメータをＬＰＣ係数復号部２０６に、相関値Ｃｏｒｒ（Ｌ，Ｒ）をステレオ信号再構築部２０８に出力する。

モノラル信号復号部２０２は、分離部２０１から入力されるモノラル信号符号化パラメータを用いて、符号化側での符号化方式に対応した方式での復号を行い、得られる復号モノラル信号Ｍ’をＬＰＣ分析部２０３に出力するとともに、必要に応じてステレオ音声復号装置２００の外部に出力する。

ＬＰＣ分析部２０３は、モノラル信号復号部２０２から入力される復号モノラル信号Ｍ’を用いてＬＰＣ分析を行い、分析により得られた線形予測係数を用いて復号モノラル信号Ｍ’に対する復号線形予測残差信号Ｍ_ｅ’を求めてＩＣＰ合成部２０５に出力する。

ＩＣＰ係数復号部２０４は、分離部２０１から入力される左チャネル用ＩＣＰ係数符号化パラメータおよび右チャネル用ＩＣＰ係数符号化パラメータを復号し、得られる復号ＩＣＰ係数ｈ_Ｌ’およびｈ_Ｒ’をＩＣＰ合成部２０５に出力する。

ＩＣＰ合成部２０５は、ＬＰＣ分析部２０３から入力される復号線形予測残差信号Ｍ_ｅ’とＩＣＰ係数復号部２０４から入力される復号ＩＣＰ係数ｈ_Ｌ’とを用いてＩＣＰ合成を行い、得られる線形予測残差信号Ｌ_２ｅ’をＬＰＣ合成部２０７に出力する。同様に、ＩＣＰ合成部２０５は、ＬＰＣ分析部２０３から入力される復号線形予測残差信号Ｍ_ｅ’とＩＣＰ係数復号部２０４から入力される復号ＩＣＰ係数ｈ_Ｒ’とを用いてＩＣＰ合成を行い、得られる線形予測残差信号Ｒ_２ｅ’をＬＰＣ合成部２０７に出力する。

ＬＰＣ係数復号部２０６は、分離部２０１から入力される左チャネル用ＬＰＣ符号化パラメータおよび右チャネル用ＬＰＣ符号化パラメータを復号し、得られる復号線形予測係数ＬＰＣ_Ｌ’およびＬＰＣ_Ｒ’をＬＰＣ合成部２０７に出力する。

ＬＰＣ合成部２０７は、ＩＣＰ合成部２０５から入力される線形予測残差信号Ｌ_２ｅ’およびＬＰＣ係数復号部２０６から入力される復号線形予測係数ＬＰＣ_Ｌ’を用いてＬＰＣ合成を行い、得られる復号合成信号Ｌ_２’をステレオ信号再構築部２０８に出力する。また、ＬＰＣ合成部２０７は、ＩＣＰ合成部２０５から入力される線形予測残差信号Ｒ_２ｅ’およびＬＰＣ係数復号部２０６から入力される復号線形予測係数ＬＰＣ_Ｒ’を用いてＬＰＣ合成を行い、得られる復号合成信号Ｒ_２’をステレオ信号再構築部２０８に出力する。

ステレオ信号再構築部２０８は、ＬＰＣ合成部２０７から入力される復号合成信号Ｌ_２’、Ｒ_２’、および分離部２０１から入力される相関値Ｃｏｒｒ（Ｌ，Ｒ）を用いて、ステレオ信号を構成する復号左チャネル信号Ｌ’および復号右チャネル信号Ｒ’を再構築し、ステレオ音声復号装置２００の外部に出力する。

以下、ステレオ信号再構築部２０８においてステレオ信号を再構築する処理を具体的に説明する。

ステレオ信号再構築部２０８に入力される復号合成信号Ｌ_２’と復号合成信号Ｒ_２’との相関値Ｃｏｒｒ（Ｌ_２’，Ｒ_２’）は、分離部２０１から入力される相関値Ｃｏｒｒ（Ｌ，Ｒ）よりも高くなるのが一般的である。

ただし、ステレオ信号の左右両チャネルの相関が高いほどステレオ信号のステレオ音像が狭くなる。従って、ステレオ信号再構築部２０８は、分離部２０１から入力される相関値Ｃｏｒｒ（Ｌ，Ｒ）を用いて、復号合成信号Ｌ_２’と復号合成信号Ｒ_２’とに聴感的に直交する残響成分をさらに加えてからステレオ信号として出力する。ここで残響成分は、ステレオ信号の空間エンハンスメント(Spatial Enhancement)のための成分であり、オールパスフィルタまたはオールパス格子型フィルタにより算出することができる。例えば、ステレオ信号再構築部２０８は、下記の式（１３）および式（１４）に従って、左チャネル信号Ｌ’および右チャネル信号Ｒ’を再構築する。

式（１３）および式（１４）において、ＡＰ_１（Ｌ_２’）およびＡＰ_２（Ｒ_２’）は相違する２つのオールパスフィルタの伝達関数を示し、ｃは下記の式（１５）に示す値である。なお、ステレオ音像をさらに向上するためには、ステレオ信号の左右両チャネル信号を複数の周波数帯域に分割し、各周波数帯域に異なるオールパスフィルタを適用しても良い。

このように、本実施の形態によれば、ステレオ音声符号化装置はモノラル信号と合成信号との相関値が所定の閾値以上となるように、左チャネル信号と右チャネル信号との合成信号を生成し、モノラル信号と合成信号とを用いてＩＣＰを行うため、ＩＣＰ次数を増加せず、ビットレートを抑えつつ、チャネル間相関が小さいステレオ信号に対するＩＣＰ性能を向上することができ、復号音声信号の音質を向上することができる。

なお、本実施の形態では、合成比率αの調整ステップとして「０．１」を用いる場合を例にとって説明したが、本発明はこれに限定されず、合成比率αの調整ステップは任意の値でよく、例えばより細かい「０．０５」にしても良い。また、変動具合が大きい音声信号における音の不安定性を回避するために、前のフレームのＩＣＰに用いられた合成比率α_{ｐｒｅｖ＿ｆｒａｍｅ}を基準に、現フレームの合成比率αの調整範囲をα_{ｐｒｅｖ＿ｆｒａｍｅ}−ρ≦α≦α_{ｐｒｅｖ＿ｆｒａｍｅ}＋ρに設定しても良い。ここで、ρは実数である。

また、本実施の形態では、モノラル信号符号化部１０９において任意の符号化方式で符号化を行うものとして説明したが、モノラル信号符号化部１０９がＣＥＬＰ（Code Excited Linear Prediction）方式または、線形予測残差信号（すなわち、励振信号）を生成する処理を含む任意の符号器とした場合には、ステレオ音声符号化装置１００はＬＰＣ分析部１０２を備えなくても良い。

また、本実施の形態では、合成比率調整部１０５は、線形予測残差信号Ｌ_２ｅと線形予測残差信号Ｍ_ｅとの相関値に基づき合成比率αを調整する場合を例にとって説明したが、本発明はこれに限定されず、図４に示すステレオ音声符号化装置３００のように、合成比率調整部１０５ａは、合成信号Ｌ_２とモノラル信号Ｍとの相関値に基づき合成比率αを調整しても良い。合成比率βに関しても同様である。

また、本実施の形態では、ステレオ音声符号化装置１００は、ＩＣＰ方式の符号化を行う前にさらにＬＰＣ分析を行う場合を例にとって説明したが、本発明に係るステレオ音声符号化装置はこれに限定されず、図５に示すステレオ音声符号化装置４００のように、ＬＰＣ分析を行わない構成でも良く、これにより、符号化処理を簡略化させ、演算量を減少させることができる。かかる場合、対応するステレオ音声復号装置５００の構成は図６に示すようになる。

また、本実施の形態では、ステレオ信号が第１チャネル信号および第２チャネル信号として左チャネル信号Ｌおよび右チャネル信号Ｒの２つのチャネル信号からなる場合を例にとって説明したが、本発明はこれに限定されず、ＬとＲとは逆でも良く、また、ステレオ信号が３つ以上のチャネル信号からなっても良い。かかる場合、３つ以上のチャネル信号の平均値をモノラル信号Ｍとして生成し、３つ以上のチャネル信号を用いて合成信号Ｌ_２を生成する。なお、本実施の形態では、Ｍは平均値としたが、これに限定されず、ＬとＲとを用いて適切に求められる代表値であれば良い。

なお、本実施の形態におけるステレオ音声復号装置は、本実施の形態におけるステレオ音声符号化装置から伝送されたビットストリームを用いて処理を行なうとしたが、本発明はこれに限定されず、必要なパラメータやデータを含むビットストリームであれば、必ずしも本実施の形態におけるステレオ音声符号化装置からのビットストリームでなくても処理は可能である。

本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。また、本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、有線方式の通信システムにおいても利用可能である。

なお、本明細書では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化／復号に本発明を適用するような構成としても良い。

また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されていても良いし、一部または全てを含むように１チップ化されていても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００７年４月２０日出願の特願２００７−１１１８６４の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。

また、モノラル信号からステレオ信号、例えば左チャネル信号および右チャネル信号を再生する別の方法としては、モノラル信号に対しＦＩＲ（Finite Impulse Response）フィルタリング処理を行ってステレオ信号の左右両チャネル信号を再構築するチャネル間予
測（ＩＣＰ：Inter-channel Prediction）がある。ＩＣＰ符号化に用いられるＦＩＲフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化（ＭＳＥ：Least mean squared error）により求められる。このようなＩＣＰ方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年「MPEGサラウンド」ISO/IEC 23003-1,2006年

本発明のステレオ音声符号化装置は、２つのチャネル信号からなるステレオ音声信号の第１チャネル信号と第２チャネル信号とを用いて得られる代表値をモノラル信号として生成するモノラル信号生成手段と、第１チャネル用合成比率および第２チャネル用合成比率を調整する合成比率調整手段と、前記合成比率調整手段が調整した第１チャネル用合成比率と前記第１チャネル信号と前記第２チャネル信号とを用いて第１チャネル用合成信号を生成し、さらに、前記合成比率調整手段が調整した第２チャネル用合成比率と前記第１チャネル信号と前記第２チャネル信号とを用いて第２チャネル用合成信号を生成する適応合成手段と、前記モノラル信号と前記第１チャネル用合成信号とを用いて第１チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第２チャネル合成信号とを用いて第２チャネル用チャネル間予測を行うチャネル間予測手段と、を具備し、前記合成比率調整手段は、前記モノラル信号と前記第１チャネル用合成信号との相関に基づいて前記第１チャネル用合成比率を調整し、さらに前記モノラル信号と前記第２チャネル用合成信号と
の相関に基づいて前記第２チャネル用合成比率を調整する構成を採る。

モノラル信号生成部１０１は、ステレオ音声符号化装置１００に入力されるステレオ音声信号、すなわち、左チャネル信号Ｌおよび右チャネル信号Ｒからモノラル信号Ｍを生成
して、ＬＰＣ分析部１０２およびモノラル信号符号化部１０９に出力する。モノラル信号Ｍは、本実施の形態においては一例として、下記の式（１）に従い、左チャネル信号Ｌおよび右チャネル信号Ｒの平均値を求めることにより生成される。
Ｍ＝（Ｌ＋Ｒ）／２ …（１）

ＬＰＣ分析部１０４は、適応合成部１０３から入力される左チャネル用合成信号Ｌ_２に対しＬＰＣ分析を行い、得られる左チャネル用線形予測係数ＬＰＣ_ＬをＬＰＣ係数量子化部１０８に出力し、同様に、適応合成部１０３から入力される右チャネル用合成信号Ｒ_２に対しＬＰＣ分析を行い、得られる右チャネル用線形予測係数ＬＰＣ_ＲをＬＰＣ係数量子化部１０８に出力する。また、ＬＰＣ分析部１０４は、得られた左チャネル用線形予測係数ＬＰＣ_Ｌを用いて、左チャネル合成信号Ｌ_２に対する線形予測残差信号Ｌ_２ｅを求めて
合成比率調整部１０５およびＩＣＰ分析部１０６に出力し、同様に、右チャネル用線形予測係数ＬＰＣ_Ｒを用いて、右チャネル合成信号Ｒ_２に対する線形予測残差信号Ｒ_２ｅを求めて合成比率調整部１０５およびＩＣＰ分析部１０６に出力する。

多重部１１１は、ＩＣＰ係数量子化部１０７から入力される左チャネル用ＩＣＰ係数符号化パラメータ、右チャネル用ＩＣＰ係数符号化パラメータ、ＬＰＣ係数量子化部１０８
から入力される左チャネル用ＬＰＣ符号化パラメータ、右チャネル用ＬＰＣ符号化パラメータ、モノラル信号符号化部１０９から入力されるモノラル信号符号化パラメータ、および相関値算出部１１０から入力される相関値Ｃｏｒｒ（Ｌ，Ｒ）を多重し、得られるビットストリームを後述のステレオ音声復号装置２００に出力する。

一方、ＳＴ１０６０において、相関値Ｃｏｒｒ_Ｌ（Ｌ_２ｅ，Ｍ_ｅ）が所定の閾値以上であると判定された場合（ＳＴ１０６０：「ＮＯ」）、またはＳＴ１０８０において、合成比率αが「０．５」以下であると判定された場合（ＳＴ１０８０：「ＮＯ」）には、ＳＴ
１０９０において、ＩＣＰ分析部１０６は、ＬＰＣ分析部１０４から入力される線形予測残差信号Ｌ_２ｅおよびＬＰＣ分析部１０２から入力される線形予測残差信号Ｍ_ｅを用いてＩＣＰ係数ｈ_Ｌを算出する。

ＬＰＣ合成部２０７は、ＩＣＰ合成部２０５から入力される線形予測残差信号Ｌ_２ｅ’およびＬＰＣ係数復号部２０６から入力される復号線形予測係数ＬＰＣ_Ｌ’を用いてＬＰＣ合成を行い、得られる復号合成信号Ｌ_２’をステレオ信号再構築部２０８に出力する。また、ＬＰＣ合成部２０７は、ＩＣＰ合成部２０５から入力される線形予測残差信号Ｒ_２ｅ’およびＬＰＣ係数復号部２０６から入力される復号線形予測係数ＬＰＣ_Ｒ’を用いて
ＬＰＣ合成を行い、得られる復号合成信号Ｒ_２’をステレオ信号再構築部２０８に出力する。

このように、本実施の形態によれば、ステレオ音声符号化装置はモノラル信号と合成信号との相関値が所定の閾値以上となるように、左チャネル信号と右チャネル信号との合成
信号を生成し、モノラル信号と合成信号とを用いてＩＣＰを行うため、ＩＣＰ次数を増加せず、ビットレートを抑えつつ、チャネル間相関が小さいステレオ信号に対するＩＣＰ性能を向上することができ、復号音声信号の音質を向上することができる。

Claims

２つのチャネル信号からなるステレオ音声信号の第１チャネル信号と第２チャネル信号とを用いて得られる代表値をモノラル信号として生成するモノラル信号生成手段と、
第１チャネル用合成比率および第２チャネル用合成比率を調整する合成比率調整手段と、
前記合成比率調整手段が調整した第１チャネル用合成比率と前記第１チャネル信号と前記第２チャネル信号とを用いて第１チャネル用合成信号を生成し、さらに、前記合成比率調整手段が調整した第２チャネル用合成比率と前記第１チャネル信号と前記第２チャネル信号とを用いて第２チャネル用合成信号を生成する適応合成手段と、
前記モノラル信号と前記第１チャネル用合成信号とを用いて第１チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第２チャネル合成信号とを用いて第２チャネル用チャネル間予測を行うチャネル間予測手段と、
を具備し、
前記合成比率調整手段は、
前記モノラル信号と前記第１チャネル用合成信号との相関に基づいて前記第１チャネル用合成比率を調整し、さらに前記モノラル信号と前記第２チャネル用合成信号との相関に基づいて前記第２チャネル用合成比率を調整する、
ステレオ音声符号化装置。
前記合成比率調整手段は、
前記モノラル信号と前記第１チャネル用合成信号との相関値である第１相関値が所定の閾値以上となるように前記第１チャネル用合成比率を調整し、前記モノラル信号と前記第２チャネル用合成信号との相関値である第２相関値が所定の閾値以上となるように前記第２チャネル用合成比率を調整する、
請求項１記載のステレオ音声符号化装置。
前記モノラル信号に対し線形予測分析を行って得られる第１線形予測係数を用いて、前記モノラル信号に対する第１線形予測残差信号を生成し、前記第１チャネル用合成信号に対し線形予測分析を行って得られる第２線形予測係数を用いて、前記第１チャネル用合成信号に対する第２線形予測残差信号を生成し、前記第２チャネル用合成信号に対し線形予測分析を行って得られる第３線形予測係数を用いて、前記第２チャネル用合成信号に対する第３線形予測残差信号を生成する線形予測分析手段、
をさらに具備し、
前記合成比率調整手段は、
前記第１線形予測残差信号と前記第２線形予測残差信号との相関値である第３相関値が所定の閾値以上となるように前記第１チャネル用合成比率を調整し、前記第１線形予測残差信号と前記第３線形予測残差信号との相関値である第４相関値が所定の閾値以上となるように前記第２チャネル用合成比率を調整する、
請求項１記載のステレオ音声符号化装置。
前記合成比率調整手段は、
前記第１チャネル用合成比率および第２チャネル用合成比率の初期値をそれぞれ設定し、前記第３相関値が所定の閾値以上となるまで前記第１チャネル用合成比率を減少することにより前記第１チャネル用合成比率を調整し、前記第４相関値が所定の閾値以上となるまで前記第２チャネル用合成比率を減少することにより前記第２チャネル用合成比率を調整する、
請求項３記載のステレオ音声符号化装置。
前記合成比率調整手段は、
過去フレームのチャネル間予測に用いられた前記第１チャネル用合成信号を生成する前記第１チャネル用合成比率に所定の値を加算し、加算結果を前記第１チャネル用合成比率の初期値とし、さらに、過去フレームのチャネル間予測に用いられた前記第２チャネル用合成信号を生成する前記第２チャネル用合成比率に所定の値を加算し、加算結果を前記第２チャネル用合成比率の初期値とする、
請求項１記載のステレオ音声符号化装置。
２つのチャネル信号からなるステレオ音声信号の第１チャネル信号と第２チャネル信号とを用いて得られる代表値をモノラル信号として生成するステップと、
第１チャネル用合成比率および第２チャネル用合成比率を調整する合成比率調整ステップと、
前記合成比率調整手段が調整した第１チャネル用合成比率および第２チャネル合成比率それぞれを用いて、前記第１チャネル信号と前記第２チャネル信号とを合成し第１チャネル用合成信号および第２チャネル合成信号それぞれを生成するステップと、
前記モノラル信号と前記第１チャネル用合成信号とを用いて第１チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第２チャネル合成信号とを用いて第２チャネル用チャネル間予測を行うステップと、
を具備し、
前記合成比率調整ステップにおいては、
前記モノラル信号と前記第１チャネル用合成信号との相関に基づいて前記第１チャネル用合成比率を調整し、さらに前記モノラル信号と前記第２チャネル用合成信号との相関に基づいて前記第２チャネル用合成比率を調整する、
ステレオ音声符号化方法。