JPWO2008132826A1 - ステレオ音声符号化装置およびステレオ音声符号化方法 - Google Patents

ステレオ音声符号化装置およびステレオ音声符号化方法 Download PDF

Info

Publication number
JPWO2008132826A1
JPWO2008132826A1 JP2009511677A JP2009511677A JPWO2008132826A1 JP WO2008132826 A1 JPWO2008132826 A1 JP WO2008132826A1 JP 2009511677 A JP2009511677 A JP 2009511677A JP 2009511677 A JP2009511677 A JP 2009511677A JP WO2008132826 A1 JPWO2008132826 A1 JP WO2008132826A1
Authority
JP
Japan
Prior art keywords
signal
channel
ratio
stereo
monaural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009511677A
Other languages
English (en)
Inventor
コクセン チョン
コクセン チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2008132826A1 publication Critical patent/JPWO2008132826A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

ビットレートを抑えつつ、チャネル間相関が低いステレオ音声信号のICP精度を向上することができるステレオ音声符号化装置を提供する。この装置(100)において、モノラル信号生成部(101)は、左チャネル信号Lと右チャネル信号Rとの平均値をモノラル信号Mとして生成し、適応合成部(103)は、合成比率調整部(105)から入力される合成比率αを用いて左チャネル信号Lと右チャネル信号Rとの合成信号L2を生成し、LPC分析部(102、104)それぞれは、モノラル信号Mおよび合成信号L2それぞれに対しLPC分析を行い、線形予測残差信号Me、L2eそれぞれを生成し、合成比率調整部(105)は、まず、合成比率αを1.0に初期化し、次いで線形予測残差信号L2eとMeとの相関値が所定値以上となるまで、合成比率αを減少し、ICP分析部(106)は、MeおよびL2eを用いてICP分析を行う。

Description

本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置およびこれに対応するステレオ音声符号化方法に関する。
携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信(モノラル通信)が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信(ステレオ通信)が普及することが期待される。
例えば、音楽をHDD(ハードディスク)搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。
また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さいため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号とからなるスケーラブル符号化がある。
このようなスケーラブル符号化において、モノラル信号からステレオ信号を合成する技術として、例えば非特許文献1記載のMPEG2/4 AAC(Moving Picture Experts Group 2/4 Advanced Audio Coding)に使用されるISC(Intensity Stereo Coding:強度ステレオ符号化)、非特許文献2記載のMPEG4エンハンストAACまたは非特許文献3記載のMPEGサラウンドに使用されるBCC(Binaural Cue Coding:バイノーラルキュー符号化)などがある。これらの符号化においては、モノラル信号からステレオ信号の左チャネル信号および右チャネル信号を再生する際は、復号される左右両チャネル信号のエネルギ比が、符号化側において符号化された元の左右両チャネル信号のエネルギ比と等しくなるように、モノラル信号のエネルギを復号される左右両チャネル信号に配分する。また、これらの符号化において音声幅を向上するために、逆相関器を用いて再生信号に残響成分を加える。
また、モノラル信号からステレオ信号、例えば左チャネル信号および右チャネル信号を再生する別の方法としては、モノラル信号に対しFIR(Finite Impulse Response)フィルタリング処理を行ってステレオ信号の左右両チャネル信号を再構築するチャネル間予測(ICP:Inter-channel Prediction)がある。ICP符号化に用いられるFIRフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化(MSE:Least mean squared error)により求められる。このようなICP方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
しかしながら、ICP方式のステレオ符号化は、左チャネル信号および右チャネル信号の予測に用いられる情報としてチャネル間固有の相関関係を用いるため、チャネル間相関が低い音声信号に対しICP方式の符号化を行う場合、復号音声の音質が劣化するという問題が生じる。特に、時間領域における信号波形の遷移が滑らかでない信号、例えばノイズフロア上の規則的ピッチスパイクが特徴となる残差信号の有声部に対するICPは難しくなる。
同一音源で発生した信号を異なる位置で取得した左右両チャネル信号それぞれは、音源からの距離が異なるため、一方のチャネル信号は、他方のチャネル信号の時間的に遅延された複製信号となる。左右両チャネル間のこの遅延は、ピッチスパイク間の不適切な配置(misalignment)を生じる。このピッチスパイクのずれは、左右両チャネル信号間の相関を低下させる原因となり、ICPの予測が適切に行われない原因となる。そして、ICPの予測が適切に行われないことにより、復号音声のフレーム間不連続の発生、および復号音声のステレオ音像の不安定性を招く。
このような、問題を解決するためには、ICPの予測次数を向上させる方法が考えられる。しかし、復号音声のフレーム間不連続性、およびステレオ音像の不安定性を、聞き手に不快感を与えない程度に抑えるためには、ICP次数をほぼフレームサイズに近い次数まで向上する必要があり、これはビットレートの大幅な増加を意味する。
本発明の目的は、ビットレートを抑えつつ、チャネル間相関が低いステレオ信号のICP性能を向上させることができるステレオ音声符号化装置およびステレオ音声符号化方法を提供することである。
本発明のステレオ音声符号化装置は、2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するモノラル信号生成手段と、第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整手段と、前記合成比率調整手段が調整した第1チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第1チャネル用合成信号を生成し、さらに、前記合成比率調整手段が調整した第2チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第2チャネル用合成信号を生成する適応合成手段と、前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うチャネル間予測手段と、を具備し、前記合成比率調整手段は、前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整する構成を採る。
本発明のステレオ音声符号化方法は、2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するステップと、第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整ステップと、前記合成比率調整手段が調整した第1チャネル用合成比率および第2チャネル合成比率それぞれを用いて、前記第1チャネル信号と前記第2チャネル信号とを合成し第1チャネル用合成信号および第2チャネル合成信号それぞれを生成するステップと、前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うステップと、を具備し、前記合成比率調整ステップにおいては、前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整するようにした。
本発明によれば、ステレオ音声符号化において、ビットレートを抑えつつ、チャネル間相関が低い音声信号に対するICP性能を向上させることができる。
本発明の一実施の形態に係るステレオ音声符号化装置の主要な構成を示すブロック図 本発明の一実施の形態に係るステレオ音声符号化装置における合成比率の調整手順を示すフロー図 本発明の一実施の形態に係るステレオ音声復号装置の主要な構成を示すブロック図 本発明の一実施の形態に係るステレオ音声符号化装置の変形例の主要な構成を示すブロック図 本発明の一実施の形態に係るステレオ音声符号化装置の変形例の主要な構成を示すブロック図 本発明の一実施の形態に係るステレオ音声復号装置の変形例の主要な構成を示すブロック図
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
図1は、本発明の実施の形態に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。以下、ステレオ信号として左チャネルおよび右チャネルの2つのチャネルからなる場合を例にとって説明する。なお、左チャネル、右チャネル、L、Rという表記は、説明の便宜上の名称であって、必ずしも、左、右、という位置的条件を限定するものではない。
図1において、ステレオ音声符号化装置100は、モノラル信号生成部101、LPC(Linear Prediction Coefficients)分析部102、適応合成部103、LPC分析部104、合成比率調整部105、ICP分析部106、ICP係数量子化部107、LPC係数量子化部108、モノラル信号符号化部109、相関値算出部110、および多重部111を備える。
モノラル信号生成部101は、ステレオ音声符号化装置100に入力されるステレオ音声信号、すなわち、左チャネル信号Lおよび右チャネル信号Rからモノラル信号Mを生成して、LPC分析部102およびモノラル信号符号化部109に出力する。モノラル信号Mは、本実施の形態においては一例として、下記の式(1)に従い、左チャネル信号Lおよび右チャネル信号Rの平均値を求めることにより生成される。
M=(L+R)/2 …(1)
LPC分析部102は、モノラル信号生成部101から入力されるモノラル信号Mを用いてLPC分析を行い、分析により得られた線形予測係数を用いてモノラル信号Mに対する線形予測残差信号Mを求めて合成比率調整部105およびICP分析部106に出力する。
適応合成部103は、合成比率調整部105において適応的に調整された左チャネル用合成比率αを用いて、ステレオ音声符号化装置100に入力される左チャネル信号Lおよび右チャネル信号Rを下記の式(2)に適用し、左チャネル用合成信号L’’を生成する。また、適応合成部103は、得られる左チャネル用合成信号L’’に対して、下記の式(3)に従いエネルギ調整を行い、エネルギ調整された左チャネル用合成信号LをLPC分析部104に出力する。
’’=α・L+(1−α)・R …(2)
Figure 2008132826
式(2)に示すように、左チャネル用合成比率αは、左チャネル用合成信号Lに含まれる左チャネル信号Lおよび右チャネル信号Rそれぞれの比率である。式(3)において、framesizeは1フレームのサンプル数を示す(以下同様)。式(3)に示すエネルギ調整によれば、左チャネル用合成信号Lのエネルギは左チャネル信号Lのエネルギと等しくなる。
同様に、適応合成部103は、合成比率調整部105において適応的に調整された右チャネル用合成比率βを用いて、ステレオ音声符号化装置100に入力される左チャネル信号Lおよび右チャネル信号Rを下記の式(4)に適用し、右チャネル用合成信号R’’を生成する。また、適応合成部103は、得られる右チャネル用合成信号R’’に対して、下記の式(5)に従いエネルギ調整を行い、エネルギ調整された右チャネル用合成信号RをLPC分析部104に出力する。
’’=β・R+(1−β)・L …(4)
Figure 2008132826
LPC分析部104は、適応合成部103から入力される左チャネル用合成信号Lに対しLPC分析を行い、得られる左チャネル用線形予測係数LPCをLPC係数量子化部108に出力し、同様に、適応合成部103から入力される右チャネル用合成信号Rに対しLPC分析を行い、得られる右チャネル用線形予測係数LPCをLPC係数量子化部108に出力する。また、LPC分析部104は、得られた左チャネル用線形予測係数LPCを用いて、左チャネル合成信号Lに対する線形予測残差信号L2eを求めて合成比率調整部105およびICP分析部106に出力し、同様に、右チャネル用線形予測係数LPCを用いて、右チャネル合成信号Rに対する線形予測残差信号R2eを求めて合成比率調整部105およびICP分析部106に出力する。
合成比率調整部105は、まず、左チャネル用合成比率αを1.0に初期化し、次いで、LPC分析部104から入力される線形予測残差信号L2eとLPC分析部102から入力される線形予測残差信号Mとのフレーム単位での相関値Corr(L2e,M)が所定の閾値より小さい場合には左チャネル用合成比率αを減少してから適応合成部103に出力する。同様に、合成比率調整部105は、まず、右チャネル用合成比率βを1.0に初期化し、次いで、LPC分析部104から入力される線形予測残差信号R2eとLPC分析部102から入力される線形予測残差信号Mとのフレーム単位での相関値Corr(R2e,M)が所定の閾値より小さい場合には右チャネル用合成比率βを減少してから適応合成部103に出力する。このように、合成比率調整部105は、相関値Corr(L2e,M)、Corr(R2e,M)それぞれが所定の閾値以上となるまで、適応合成部103、LPC分析部104とともに合成比率α、βを調整するループ処理をそれぞれ行う。合成比率調整部105は、下記の式(6)、(7)に従って相関値Corr(L2e,M)、Corr(R2e,M)それぞれを求める。
Figure 2008132826
Figure 2008132826
ICP分析部106は、LPC分析部104から入力される線形予測残差信号L2eおよびLPC分析部102から入力される線形予測残差信号Mを用いて左チャネル用ICP係数hを算出しICP係数量子化部107に出力する。左チャネル用ICP係数hは、線形予測残差信号Mから線形予測残差信号L2eを予測するためのN次のFIRフィルタ係数であり、線形予測残差信号L2eに対する予測信号をL^2eとすると、下記の式(8)で示される。
Figure 2008132826
式(8)において、nは線形予測残差信号MおよびL2eのサンプル番号を示し、iはFIRフィルタ係数の次数を示す。FIRフィルタ係数h(i)は平均二乗誤差最小化により求められる。具体的には、h(i)は下記の式(9)に示す平均二乗誤差εを最小にするような値であり、従って下記の式(10)を満たす値である。式(10)を解くと式(11)に示すhが得られる。
Figure 2008132826
Figure 2008132826
Figure 2008132826
さらに、ICP分析部106は、LPC分析部104から入力される線形予測残差信号R2eおよびLPC分析部102から入力される線形予測残差信号Mを用いて、左チャネル用ICP係数hを求める方法と同様な方法で右チャネル用ICP係数hを求めてICP係数量子化部107に出力する。
ICP係数量子化部107は、ICP分析部106から入力される左チャネル用ICP係数hおよび右チャネル用ICP係数hを量子化し、得られる左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータを多重部111に出力する。
LPC係数量子化部108は、LPC分析部104から入力される左チャネル用線形予測係数LPCおよび右チャネル用線形予測係数LPCを量子化し、得られる左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータを多重部111に出力する。
モノラル信号符号化部109は、モノラル信号生成部101から入力されるモノラル信号Mに対し任意の符号化方式によりの符号化を行い、得られるモノラル信号符号化パラメータを多重部111に出力する。
相関値算出部110は、ステレオ音声符号化装置100に入力される左チャネル信号Lと右チャネル信号Rとのフレーム単位での相関値Corr(L,R)を、下記の式(12)に従い求めて多重部111に出力する。
Figure 2008132826
多重部111は、ICP係数量子化部107から入力される左チャネル用ICP係数符号化パラメータ、右チャネル用ICP係数符号化パラメータ、LPC係数量子化部108から入力される左チャネル用LPC符号化パラメータ、右チャネル用LPC符号化パラメータ、モノラル信号符号化部109から入力されるモノラル信号符号化パラメータ、および相関値算出部110から入力される相関値Corr(L,R)を多重し、得られるビットストリームを後述のステレオ音声復号装置200に出力する。
図2は、ステレオ音声符号化装置100における合成比率αおよびβの調整手順を示すフロー図である。なお、この図においては左チャネル用合成比率αの調整手順を例にとって説明するが、右チャネル用合成比率βの調整手順はこの図に示す手順と基本的に同様であり、この図において、αをβに、L’’をR’’に、L2eをR2eに、hをhにそれぞれ置き換えたものとなる。
ステップ(以下、「ST」と省略する)1010において、合成比率調整部105は、合成比率αを「1.0」に初期化する。
次いで、ST1020において、適応合成部103は、式(2)に従い合成信号L’’を生成する。
次いで、ST1030において、適応合成部103は、式(3)に従い合成信号L’’に対しエネルギ調整を行って合成信号Lを得る。
次いで、ST1040において、LPC分析部104は、合成信号Lに対しLPC分析を行い線形予測残差信号L2eを生成する。
次いで、ST1050において、合成比率調整部105は、LPC分析部104から入力される線形予測残差信号L2eと、LPC分析部102から入力される線形予測残差信号Mとの相関値Corr(L2e,M)を算出する。
次いで、ST1060において、合成比率調整部105は、相関値Corr(L2e,M)が所定の閾値より小さいか否かを判定する。
ST1060において、相関値Corr(L2e,M)が所定の閾値より小さいと判定された場合(ST1060:「YES」)には、ST1070において、合成比率調整部105は、α=α−0.1のように合成比率αを調整する。
次いで、ST1080において、合成比率調整部105は、合成比率αが「0.5」より大きいか否かを判定する。
ST1080において、合成比率αが「0.5」より大きいと判定された場合(ST1080:「YES」)には、処理手順はST1020に移行する。
このステップにおける判定処理により、合成比率αは0.5≦α≦1.0の範囲に限定される。ここで、合成比率αの値が「1.0」となる場合、合成信号Lとモノラル信号Mとは最も相違するため、ICPの予測性能が最も劣る。一方、合成比率αの値が「0.5」に近いほど、合成信号Lとモノラル信号Mとはより近似するためICPの予測性能はより優れる。なお、上記において合成比率と比較する値は「0.5」に限定されるものではなく、適宜適切な値に設定できることは言うまでもない。
一方、ST1060において、相関値Corr(L2e,M)が所定の閾値以上であると判定された場合(ST1060:「NO」)、またはST1080において、合成比率αが「0.5」以下であると判定された場合(ST1080:「NO」)には、ST1090において、ICP分析部106は、LPC分析部104から入力される線形予測残差信号L2eおよびLPC分析部102から入力される線形予測残差信号Mを用いてICP係数hを算出する。
図3は、本実施の形態に係るステレオ音声復号装置200の主要な構成を示すブロック図である。
図3において、ステレオ音声復号装置200は、分離部201、モノラル信号復号部202、LPC分析部203、ICP係数復号部204、ICP合成部205、LPC係数復号部206、LPC合成部207、およびステレオ信号再構築部208を備える。
分離部201は、ステレオ音声符号化装置100から伝送されるビットストリームをモノラル信号符号化パラメータ、左チャネル用ICP係数符号化パラメータ、右チャネル用ICP係数符号化パラメータ、左チャネル用LPC符号化パラメータ、右チャネル用LPC符号化パラメータ、および相関値Corr(L,R)に分離する。分離部201は、モノラル信号符号化パラメータをモノラル信号復号部202に、左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータをICP係数復号部204に、左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータをLPC係数復号部206に、相関値Corr(L,R)をステレオ信号再構築部208に出力する。
モノラル信号復号部202は、分離部201から入力されるモノラル信号符号化パラメータを用いて、符号化側での符号化方式に対応した方式での復号を行い、得られる復号モノラル信号M’をLPC分析部203に出力するとともに、必要に応じてステレオ音声復号装置200の外部に出力する。
LPC分析部203は、モノラル信号復号部202から入力される復号モノラル信号M’を用いてLPC分析を行い、分析により得られた線形予測係数を用いて復号モノラル信号M’に対する復号線形予測残差信号M’を求めてICP合成部205に出力する。
ICP係数復号部204は、分離部201から入力される左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータを復号し、得られる復号ICP係数h’およびh’をICP合成部205に出力する。
ICP合成部205は、LPC分析部203から入力される復号線形予測残差信号M’とICP係数復号部204から入力される復号ICP係数h’とを用いてICP合成を行い、得られる線形予測残差信号L2e’をLPC合成部207に出力する。同様に、ICP合成部205は、LPC分析部203から入力される復号線形予測残差信号M’とICP係数復号部204から入力される復号ICP係数h’とを用いてICP合成を行い、得られる線形予測残差信号R2e’をLPC合成部207に出力する。
LPC係数復号部206は、分離部201から入力される左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータを復号し、得られる復号線形予測係数LPC’およびLPC’をLPC合成部207に出力する。
LPC合成部207は、ICP合成部205から入力される線形予測残差信号L2e’およびLPC係数復号部206から入力される復号線形予測係数LPC’を用いてLPC合成を行い、得られる復号合成信号L’をステレオ信号再構築部208に出力する。また、LPC合成部207は、ICP合成部205から入力される線形予測残差信号R2e’およびLPC係数復号部206から入力される復号線形予測係数LPC’を用いてLPC合成を行い、得られる復号合成信号R’をステレオ信号再構築部208に出力する。
ステレオ信号再構築部208は、LPC合成部207から入力される復号合成信号L’、R’、および分離部201から入力される相関値Corr(L,R)を用いて、ステレオ信号を構成する復号左チャネル信号L’および復号右チャネル信号R’を再構築し、ステレオ音声復号装置200の外部に出力する。
以下、ステレオ信号再構築部208においてステレオ信号を再構築する処理を具体的に説明する。
ステレオ信号再構築部208に入力される復号合成信号L’と復号合成信号R’との相関値Corr(L’,R’)は、分離部201から入力される相関値Corr(L,R)よりも高くなるのが一般的である。
ただし、ステレオ信号の左右両チャネルの相関が高いほどステレオ信号のステレオ音像が狭くなる。従って、ステレオ信号再構築部208は、分離部201から入力される相関値Corr(L,R)を用いて、復号合成信号L’と復号合成信号R’とに聴感的に直交する残響成分をさらに加えてからステレオ信号として出力する。ここで残響成分は、ステレオ信号の空間エンハンスメント(Spatial Enhancement)のための成分であり、オールパスフィルタまたはオールパス格子型フィルタにより算出することができる。例えば、ステレオ信号再構築部208は、下記の式(13)および式(14)に従って、左チャネル信号L’および右チャネル信号R’を再構築する。
Figure 2008132826
Figure 2008132826
式(13)および式(14)において、AP(L’)およびAP(R’)は相違する2つのオールパスフィルタの伝達関数を示し、cは下記の式(15)に示す値である。なお、ステレオ音像をさらに向上するためには、ステレオ信号の左右両チャネル信号を複数の周波数帯域に分割し、各周波数帯域に異なるオールパスフィルタを適用しても良い。
Figure 2008132826
このように、本実施の形態によれば、ステレオ音声符号化装置はモノラル信号と合成信号との相関値が所定の閾値以上となるように、左チャネル信号と右チャネル信号との合成信号を生成し、モノラル信号と合成信号とを用いてICPを行うため、ICP次数を増加せず、ビットレートを抑えつつ、チャネル間相関が小さいステレオ信号に対するICP性能を向上することができ、復号音声信号の音質を向上することができる。
なお、本実施の形態では、合成比率αの調整ステップとして「0.1」を用いる場合を例にとって説明したが、本発明はこれに限定されず、合成比率αの調整ステップは任意の値でよく、例えばより細かい「0.05」にしても良い。また、変動具合が大きい音声信号における音の不安定性を回避するために、前のフレームのICPに用いられた合成比率αprev_frameを基準に、現フレームの合成比率αの調整範囲をαprev_frame−ρ≦α≦αprev_frame+ρに設定しても良い。ここで、ρは実数である。
また、本実施の形態では、モノラル信号符号化部109において任意の符号化方式で符号化を行うものとして説明したが、モノラル信号符号化部109がCELP(Code Excited Linear Prediction)方式または、線形予測残差信号(すなわち、励振信号)を生成する処理を含む任意の符号器とした場合には、ステレオ音声符号化装置100はLPC分析部102を備えなくても良い。
また、本実施の形態では、合成比率調整部105は、線形予測残差信号L2eと線形予測残差信号Mとの相関値に基づき合成比率αを調整する場合を例にとって説明したが、本発明はこれに限定されず、図4に示すステレオ音声符号化装置300のように、合成比率調整部105aは、合成信号Lとモノラル信号Mとの相関値に基づき合成比率αを調整しても良い。合成比率βに関しても同様である。
また、本実施の形態では、ステレオ音声符号化装置100は、ICP方式の符号化を行う前にさらにLPC分析を行う場合を例にとって説明したが、本発明に係るステレオ音声符号化装置はこれに限定されず、図5に示すステレオ音声符号化装置400のように、LPC分析を行わない構成でも良く、これにより、符号化処理を簡略化させ、演算量を減少させることができる。かかる場合、対応するステレオ音声復号装置500の構成は図6に示すようになる。
また、本実施の形態では、ステレオ信号が第1チャネル信号および第2チャネル信号として左チャネル信号Lおよび右チャネル信号Rの2つのチャネル信号からなる場合を例にとって説明したが、本発明はこれに限定されず、LとRとは逆でも良く、また、ステレオ信号が3つ以上のチャネル信号からなっても良い。かかる場合、3つ以上のチャネル信号の平均値をモノラル信号Mとして生成し、3つ以上のチャネル信号を用いて合成信号Lを生成する。なお、本実施の形態では、Mは平均値としたが、これに限定されず、LとRとを用いて適切に求められる代表値であれば良い。
なお、本実施の形態におけるステレオ音声復号装置は、本実施の形態におけるステレオ音声符号化装置から伝送されたビットストリームを用いて処理を行なうとしたが、本発明はこれに限定されず、必要なパラメータやデータを含むビットストリームであれば、必ずしも本実施の形態におけるステレオ音声符号化装置からのビットストリームでなくても処理は可能である。
本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。また、本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、有線方式の通信システムにおいても利用可能である。
なお、本明細書では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化/復号に本発明を適用するような構成としても良い。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2007年4月20日出願の特願2007−111864の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。
本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置およびこれに対応するステレオ音声符号化方法に関する。
携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信(モノラル通信)が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信(ステレオ通信)が普及することが期待される。
例えば、音楽をHDD(ハードディスク)搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。
また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さいため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号とからなるスケーラブル符号化がある。
このようなスケーラブル符号化において、モノラル信号からステレオ信号を合成する技術として、例えば非特許文献1記載のMPEG2/4 AAC(Moving Picture Experts Group 2/4 Advanced Audio Coding)に使用されるISC(Intensity Stereo Coding:強度ステレオ符号化)、非特許文献2記載のMPEG4エンハンストAACまたは非特許文献3記載のMPEGサラウンドに使用されるBCC(Binaural Cue Coding:バイノーラルキュー符号化)などがある。これらの符号化においては、モノラル信号からステレオ信号の左チャネル信号および右チャネル信号を再生する際は、復号される左右両チャネル信号のエネルギ比が、符号化側において符号化された元の左右両チャネル信号のエネルギ比と等しくなるように、モノラル信号のエネルギを復号される左右両チャネル信号に配分する。また、これらの符号化において音声幅を向上するために、逆相関器を用いて再生信号に残響成分を加える。
また、モノラル信号からステレオ信号、例えば左チャネル信号および右チャネル信号を再生する別の方法としては、モノラル信号に対しFIR(Finite Impulse Response)フィルタリング処理を行ってステレオ信号の左右両チャネル信号を再構築するチャネル間予
測(ICP:Inter-channel Prediction)がある。ICP符号化に用いられるFIRフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化(MSE:Least mean squared error)により求められる。このようなICP方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
しかしながら、ICP方式のステレオ符号化は、左チャネル信号および右チャネル信号の予測に用いられる情報としてチャネル間固有の相関関係を用いるため、チャネル間相関が低い音声信号に対しICP方式の符号化を行う場合、復号音声の音質が劣化するという問題が生じる。特に、時間領域における信号波形の遷移が滑らかでない信号、例えばノイズフロア上の規則的ピッチスパイクが特徴となる残差信号の有声部に対するICPは難しくなる。
同一音源で発生した信号を異なる位置で取得した左右両チャネル信号それぞれは、音源からの距離が異なるため、一方のチャネル信号は、他方のチャネル信号の時間的に遅延された複製信号となる。左右両チャネル間のこの遅延は、ピッチスパイク間の不適切な配置(misalignment)を生じる。このピッチスパイクのずれは、左右両チャネル信号間の相関を低下させる原因となり、ICPの予測が適切に行われない原因となる。そして、ICPの予測が適切に行われないことにより、復号音声のフレーム間不連続の発生、および復号音声のステレオ音像の不安定性を招く。
このような、問題を解決するためには、ICPの予測次数を向上させる方法が考えられる。しかし、復号音声のフレーム間不連続性、およびステレオ音像の不安定性を、聞き手に不快感を与えない程度に抑えるためには、ICP次数をほぼフレームサイズに近い次数まで向上する必要があり、これはビットレートの大幅な増加を意味する。
本発明の目的は、ビットレートを抑えつつ、チャネル間相関が低いステレオ信号のICP性能を向上させることができるステレオ音声符号化装置およびステレオ音声符号化方法を提供することである。
本発明のステレオ音声符号化装置は、2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するモノラル信号生成手段と、第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整手段と、前記合成比率調整手段が調整した第1チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第1チャネル用合成信号を生成し、さらに、前記合成比率調整手段が調整した第2チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第2チャネル用合成信号を生成する適応合成手段と、前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うチャネル間予測手段と、を具備し、前記合成比率調整手段は、前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号と
の相関に基づいて前記第2チャネル用合成比率を調整する構成を採る。
本発明のステレオ音声符号化方法は、2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するステップと、第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整ステップと、前記合成比率調整手段が調整した第1チャネル用合成比率および第2チャネル合成比率それぞれを用いて、前記第1チャネル信号と前記第2チャネル信号とを合成し第1チャネル用合成信号および第2チャネル合成信号それぞれを生成するステップと、前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うステップと、を具備し、前記合成比率調整ステップにおいては、前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整するようにした。
本発明によれば、ステレオ音声符号化において、ビットレートを抑えつつ、チャネル間相関が低い音声信号に対するICP性能を向上させることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
図1は、本発明の実施の形態に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。以下、ステレオ信号として左チャネルおよび右チャネルの2つのチャネルからなる場合を例にとって説明する。なお、左チャネル、右チャネル、L、Rという表記は、説明の便宜上の名称であって、必ずしも、左、右、という位置的条件を限定するものではない。
図1において、ステレオ音声符号化装置100は、モノラル信号生成部101、LPC(Linear Prediction Coefficients)分析部102、適応合成部103、LPC分析部104、合成比率調整部105、ICP分析部106、ICP係数量子化部107、LPC係数量子化部108、モノラル信号符号化部109、相関値算出部110、および多重部111を備える。
モノラル信号生成部101は、ステレオ音声符号化装置100に入力されるステレオ音声信号、すなわち、左チャネル信号Lおよび右チャネル信号Rからモノラル信号Mを生成
して、LPC分析部102およびモノラル信号符号化部109に出力する。モノラル信号Mは、本実施の形態においては一例として、下記の式(1)に従い、左チャネル信号Lおよび右チャネル信号Rの平均値を求めることにより生成される。
M=(L+R)/2 …(1)
LPC分析部102は、モノラル信号生成部101から入力されるモノラル信号Mを用いてLPC分析を行い、分析により得られた線形予測係数を用いてモノラル信号Mに対する線形予測残差信号Mを求めて合成比率調整部105およびICP分析部106に出力する。
適応合成部103は、合成比率調整部105において適応的に調整された左チャネル用合成比率αを用いて、ステレオ音声符号化装置100に入力される左チャネル信号Lおよび右チャネル信号Rを下記の式(2)に適用し、左チャネル用合成信号L’’を生成する。また、適応合成部103は、得られる左チャネル用合成信号L’’に対して、下記の式(3)に従いエネルギ調整を行い、エネルギ調整された左チャネル用合成信号LをLPC分析部104に出力する。
’’=α・L+(1−α)・R …(2)
Figure 2008132826
式(2)に示すように、左チャネル用合成比率αは、左チャネル用合成信号Lに含まれる左チャネル信号Lおよび右チャネル信号Rそれぞれの比率である。式(3)において、framesizeは1フレームのサンプル数を示す(以下同様)。式(3)に示すエネルギ調整によれば、左チャネル用合成信号Lのエネルギは左チャネル信号Lのエネルギと等しくなる。
同様に、適応合成部103は、合成比率調整部105において適応的に調整された右チャネル用合成比率βを用いて、ステレオ音声符号化装置100に入力される左チャネル信号Lおよび右チャネル信号Rを下記の式(4)に適用し、右チャネル用合成信号R’’を生成する。また、適応合成部103は、得られる右チャネル用合成信号R’’に対して、下記の式(5)に従いエネルギ調整を行い、エネルギ調整された右チャネル用合成信号RをLPC分析部104に出力する。
’’=β・R+(1−β)・L …(4)
Figure 2008132826
LPC分析部104は、適応合成部103から入力される左チャネル用合成信号Lに対しLPC分析を行い、得られる左チャネル用線形予測係数LPCをLPC係数量子化部108に出力し、同様に、適応合成部103から入力される右チャネル用合成信号Rに対しLPC分析を行い、得られる右チャネル用線形予測係数LPCをLPC係数量子化部108に出力する。また、LPC分析部104は、得られた左チャネル用線形予測係数LPCを用いて、左チャネル合成信号Lに対する線形予測残差信号L2eを求めて
合成比率調整部105およびICP分析部106に出力し、同様に、右チャネル用線形予測係数LPCを用いて、右チャネル合成信号Rに対する線形予測残差信号R2eを求めて合成比率調整部105およびICP分析部106に出力する。
合成比率調整部105は、まず、左チャネル用合成比率αを1.0に初期化し、次いで、LPC分析部104から入力される線形予測残差信号L2eとLPC分析部102から入力される線形予測残差信号Mとのフレーム単位での相関値Corr(L2e,M)が所定の閾値より小さい場合には左チャネル用合成比率αを減少してから適応合成部103に出力する。同様に、合成比率調整部105は、まず、右チャネル用合成比率βを1.0に初期化し、次いで、LPC分析部104から入力される線形予測残差信号R2eとLPC分析部102から入力される線形予測残差信号Mとのフレーム単位での相関値Corr(R2e,M)が所定の閾値より小さい場合には右チャネル用合成比率βを減少してから適応合成部103に出力する。このように、合成比率調整部105は、相関値Corr(L2e,M)、Corr(R2e,M)それぞれが所定の閾値以上となるまで、適応合成部103、LPC分析部104とともに合成比率α、βを調整するループ処理をそれぞれ行う。合成比率調整部105は、下記の式(6)、(7)に従って相関値Corr(L2e,M)、Corr(R2e,M)それぞれを求める。
Figure 2008132826
Figure 2008132826
ICP分析部106は、LPC分析部104から入力される線形予測残差信号L2eおよびLPC分析部102から入力される線形予測残差信号Mを用いて左チャネル用ICP係数hを算出しICP係数量子化部107に出力する。左チャネル用ICP係数hは、線形予測残差信号Mから線形予測残差信号L2eを予測するためのN次のFIRフィルタ係数であり、線形予測残差信号L2eに対する予測信号をL^2eとすると、下記の式(8)で示される。
Figure 2008132826
式(8)において、nは線形予測残差信号MおよびL2eのサンプル番号を示し、iはFIRフィルタ係数の次数を示す。FIRフィルタ係数h(i)は平均二乗誤差最小化により求められる。具体的には、h(i)は下記の式(9)に示す平均二乗誤差εを最小にするような値であり、従って下記の式(10)を満たす値である。式(10)を解くと式(11)に示すhが得られる。
Figure 2008132826
Figure 2008132826
Figure 2008132826
さらに、ICP分析部106は、LPC分析部104から入力される線形予測残差信号R2eおよびLPC分析部102から入力される線形予測残差信号Mを用いて、左チャネル用ICP係数hを求める方法と同様な方法で右チャネル用ICP係数hを求めてICP係数量子化部107に出力する。
ICP係数量子化部107は、ICP分析部106から入力される左チャネル用ICP係数hおよび右チャネル用ICP係数hを量子化し、得られる左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータを多重部111に出力する。
LPC係数量子化部108は、LPC分析部104から入力される左チャネル用線形予測係数LPCおよび右チャネル用線形予測係数LPCを量子化し、得られる左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータを多重部111に出力する。
モノラル信号符号化部109は、モノラル信号生成部101から入力されるモノラル信号Mに対し任意の符号化方式によりの符号化を行い、得られるモノラル信号符号化パラメータを多重部111に出力する。
相関値算出部110は、ステレオ音声符号化装置100に入力される左チャネル信号Lと右チャネル信号Rとのフレーム単位での相関値Corr(L,R)を、下記の式(12)に従い求めて多重部111に出力する。
Figure 2008132826
多重部111は、ICP係数量子化部107から入力される左チャネル用ICP係数符号化パラメータ、右チャネル用ICP係数符号化パラメータ、LPC係数量子化部108
から入力される左チャネル用LPC符号化パラメータ、右チャネル用LPC符号化パラメータ、モノラル信号符号化部109から入力されるモノラル信号符号化パラメータ、および相関値算出部110から入力される相関値Corr(L,R)を多重し、得られるビットストリームを後述のステレオ音声復号装置200に出力する。
図2は、ステレオ音声符号化装置100における合成比率αおよびβの調整手順を示すフロー図である。なお、この図においては左チャネル用合成比率αの調整手順を例にとって説明するが、右チャネル用合成比率βの調整手順はこの図に示す手順と基本的に同様であり、この図において、αをβに、L’’をR’’に、L2eをR2eに、hをhにそれぞれ置き換えたものとなる。
ステップ(以下、「ST」と省略する)1010において、合成比率調整部105は、合成比率αを「1.0」に初期化する。
次いで、ST1020において、適応合成部103は、式(2)に従い合成信号L’’を生成する。
次いで、ST1030において、適応合成部103は、式(3)に従い合成信号L’’に対しエネルギ調整を行って合成信号Lを得る。
次いで、ST1040において、LPC分析部104は、合成信号Lに対しLPC分析を行い線形予測残差信号L2eを生成する。
次いで、ST1050において、合成比率調整部105は、LPC分析部104から入力される線形予測残差信号L2eと、LPC分析部102から入力される線形予測残差信号Mとの相関値Corr(L2e,M)を算出する。
次いで、ST1060において、合成比率調整部105は、相関値Corr(L2e,M)が所定の閾値より小さいか否かを判定する。
ST1060において、相関値Corr(L2e,M)が所定の閾値より小さいと判定された場合(ST1060:「YES」)には、ST1070において、合成比率調整部105は、α=α−0.1のように合成比率αを調整する。
次いで、ST1080において、合成比率調整部105は、合成比率αが「0.5」より大きいか否かを判定する。
ST1080において、合成比率αが「0.5」より大きいと判定された場合(ST1080:「YES」)には、処理手順はST1020に移行する。
このステップにおける判定処理により、合成比率αは0.5≦α≦1.0の範囲に限定される。ここで、合成比率αの値が「1.0」となる場合、合成信号Lとモノラル信号Mとは最も相違するため、ICPの予測性能が最も劣る。一方、合成比率αの値が「0.5」に近いほど、合成信号Lとモノラル信号Mとはより近似するためICPの予測性能はより優れる。なお、上記において合成比率と比較する値は「0.5」に限定されるものではなく、適宜適切な値に設定できることは言うまでもない。
一方、ST1060において、相関値Corr(L2e,M)が所定の閾値以上であると判定された場合(ST1060:「NO」)、またはST1080において、合成比率αが「0.5」以下であると判定された場合(ST1080:「NO」)には、ST
1090において、ICP分析部106は、LPC分析部104から入力される線形予測残差信号L2eおよびLPC分析部102から入力される線形予測残差信号Mを用いてICP係数hを算出する。
図3は、本実施の形態に係るステレオ音声復号装置200の主要な構成を示すブロック図である。
図3において、ステレオ音声復号装置200は、分離部201、モノラル信号復号部202、LPC分析部203、ICP係数復号部204、ICP合成部205、LPC係数復号部206、LPC合成部207、およびステレオ信号再構築部208を備える。
分離部201は、ステレオ音声符号化装置100から伝送されるビットストリームをモノラル信号符号化パラメータ、左チャネル用ICP係数符号化パラメータ、右チャネル用ICP係数符号化パラメータ、左チャネル用LPC符号化パラメータ、右チャネル用LPC符号化パラメータ、および相関値Corr(L,R)に分離する。分離部201は、モノラル信号符号化パラメータをモノラル信号復号部202に、左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータをICP係数復号部204に、左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータをLPC係数復号部206に、相関値Corr(L,R)をステレオ信号再構築部208に出力する。
モノラル信号復号部202は、分離部201から入力されるモノラル信号符号化パラメータを用いて、符号化側での符号化方式に対応した方式での復号を行い、得られる復号モノラル信号M’をLPC分析部203に出力するとともに、必要に応じてステレオ音声復号装置200の外部に出力する。
LPC分析部203は、モノラル信号復号部202から入力される復号モノラル信号M’を用いてLPC分析を行い、分析により得られた線形予測係数を用いて復号モノラル信号M’に対する復号線形予測残差信号M’を求めてICP合成部205に出力する。
ICP係数復号部204は、分離部201から入力される左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータを復号し、得られる復号ICP係数h’およびh’をICP合成部205に出力する。
ICP合成部205は、LPC分析部203から入力される復号線形予測残差信号M’とICP係数復号部204から入力される復号ICP係数h’とを用いてICP合成を行い、得られる線形予測残差信号L2e’をLPC合成部207に出力する。同様に、ICP合成部205は、LPC分析部203から入力される復号線形予測残差信号M’とICP係数復号部204から入力される復号ICP係数h’とを用いてICP合成を行い、得られる線形予測残差信号R2e’をLPC合成部207に出力する。
LPC係数復号部206は、分離部201から入力される左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータを復号し、得られる復号線形予測係数LPC’およびLPC’をLPC合成部207に出力する。
LPC合成部207は、ICP合成部205から入力される線形予測残差信号L2e’およびLPC係数復号部206から入力される復号線形予測係数LPC’を用いてLPC合成を行い、得られる復号合成信号L’をステレオ信号再構築部208に出力する。また、LPC合成部207は、ICP合成部205から入力される線形予測残差信号R2e’およびLPC係数復号部206から入力される復号線形予測係数LPC’を用いて
LPC合成を行い、得られる復号合成信号R’をステレオ信号再構築部208に出力する。
ステレオ信号再構築部208は、LPC合成部207から入力される復号合成信号L’、R’、および分離部201から入力される相関値Corr(L,R)を用いて、ステレオ信号を構成する復号左チャネル信号L’および復号右チャネル信号R’を再構築し、ステレオ音声復号装置200の外部に出力する。
以下、ステレオ信号再構築部208においてステレオ信号を再構築する処理を具体的に説明する。
ステレオ信号再構築部208に入力される復号合成信号L’と復号合成信号R’との相関値Corr(L’,R’)は、分離部201から入力される相関値Corr(L,R)よりも高くなるのが一般的である。
ただし、ステレオ信号の左右両チャネルの相関が高いほどステレオ信号のステレオ音像が狭くなる。従って、ステレオ信号再構築部208は、分離部201から入力される相関値Corr(L,R)を用いて、復号合成信号L’と復号合成信号R’とに聴感的に直交する残響成分をさらに加えてからステレオ信号として出力する。ここで残響成分は、ステレオ信号の空間エンハンスメント(Spatial Enhancement)のための成分であり、オールパスフィルタまたはオールパス格子型フィルタにより算出することができる。例えば、ステレオ信号再構築部208は、下記の式(13)および式(14)に従って、左チャネル信号L’および右チャネル信号R’を再構築する。
Figure 2008132826
Figure 2008132826
式(13)および式(14)において、AP(L’)およびAP(R’)は相違する2つのオールパスフィルタの伝達関数を示し、cは下記の式(15)に示す値である。なお、ステレオ音像をさらに向上するためには、ステレオ信号の左右両チャネル信号を複数の周波数帯域に分割し、各周波数帯域に異なるオールパスフィルタを適用しても良い。
Figure 2008132826
このように、本実施の形態によれば、ステレオ音声符号化装置はモノラル信号と合成信号との相関値が所定の閾値以上となるように、左チャネル信号と右チャネル信号との合成
信号を生成し、モノラル信号と合成信号とを用いてICPを行うため、ICP次数を増加せず、ビットレートを抑えつつ、チャネル間相関が小さいステレオ信号に対するICP性能を向上することができ、復号音声信号の音質を向上することができる。
なお、本実施の形態では、合成比率αの調整ステップとして「0.1」を用いる場合を例にとって説明したが、本発明はこれに限定されず、合成比率αの調整ステップは任意の値でよく、例えばより細かい「0.05」にしても良い。また、変動具合が大きい音声信号における音の不安定性を回避するために、前のフレームのICPに用いられた合成比率αprev_frameを基準に、現フレームの合成比率αの調整範囲をαprev_frame−ρ≦α≦αprev_frame+ρに設定しても良い。ここで、ρは実数である。
また、本実施の形態では、モノラル信号符号化部109において任意の符号化方式で符号化を行うものとして説明したが、モノラル信号符号化部109がCELP(Code Excited Linear Prediction)方式または、線形予測残差信号(すなわち、励振信号)を生成する処理を含む任意の符号器とした場合には、ステレオ音声符号化装置100はLPC分析部102を備えなくても良い。
また、本実施の形態では、合成比率調整部105は、線形予測残差信号L2eと線形予測残差信号Mとの相関値に基づき合成比率αを調整する場合を例にとって説明したが、本発明はこれに限定されず、図4に示すステレオ音声符号化装置300のように、合成比率調整部105aは、合成信号Lとモノラル信号Mとの相関値に基づき合成比率αを調整しても良い。合成比率βに関しても同様である。
また、本実施の形態では、ステレオ音声符号化装置100は、ICP方式の符号化を行う前にさらにLPC分析を行う場合を例にとって説明したが、本発明に係るステレオ音声符号化装置はこれに限定されず、図5に示すステレオ音声符号化装置400のように、LPC分析を行わない構成でも良く、これにより、符号化処理を簡略化させ、演算量を減少させることができる。かかる場合、対応するステレオ音声復号装置500の構成は図6に示すようになる。
また、本実施の形態では、ステレオ信号が第1チャネル信号および第2チャネル信号として左チャネル信号Lおよび右チャネル信号Rの2つのチャネル信号からなる場合を例にとって説明したが、本発明はこれに限定されず、LとRとは逆でも良く、また、ステレオ信号が3つ以上のチャネル信号からなっても良い。かかる場合、3つ以上のチャネル信号の平均値をモノラル信号Mとして生成し、3つ以上のチャネル信号を用いて合成信号Lを生成する。なお、本実施の形態では、Mは平均値としたが、これに限定されず、LとRとを用いて適切に求められる代表値であれば良い。
なお、本実施の形態におけるステレオ音声復号装置は、本実施の形態におけるステレオ音声符号化装置から伝送されたビットストリームを用いて処理を行なうとしたが、本発明はこれに限定されず、必要なパラメータやデータを含むビットストリームであれば、必ずしも本実施の形態におけるステレオ音声符号化装置からのビットストリームでなくても処理は可能である。
本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。また、本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、有線方式の通信システムにおいても利用可能である。
なお、本明細書では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化/復号に本発明を適用するような構成としても良い。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2007年4月20日出願の特願2007−111864の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。
本発明の一実施の形態に係るステレオ音声符号化装置の主要な構成を示すブロック図 本発明の一実施の形態に係るステレオ音声符号化装置における合成比率の調整手順を示すフロー図 本発明の一実施の形態に係るステレオ音声復号装置の主要な構成を示すブロック図 本発明の一実施の形態に係るステレオ音声符号化装置の変形例の主要な構成を示すブロック図 本発明の一実施の形態に係るステレオ音声符号化装置の変形例の主要な構成を示すブロック図 本発明の一実施の形態に係るステレオ音声復号装置の変形例の主要な構成を示すブロック図

Claims (6)

  1. 2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するモノラル信号生成手段と、
    第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整手段と、
    前記合成比率調整手段が調整した第1チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第1チャネル用合成信号を生成し、さらに、前記合成比率調整手段が調整した第2チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第2チャネル用合成信号を生成する適応合成手段と、
    前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うチャネル間予測手段と、
    を具備し、
    前記合成比率調整手段は、
    前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整する、
    ステレオ音声符号化装置。
  2. 前記合成比率調整手段は、
    前記モノラル信号と前記第1チャネル用合成信号との相関値である第1相関値が所定の閾値以上となるように前記第1チャネル用合成比率を調整し、前記モノラル信号と前記第2チャネル用合成信号との相関値である第2相関値が所定の閾値以上となるように前記第2チャネル用合成比率を調整する、
    請求項1記載のステレオ音声符号化装置。
  3. 前記モノラル信号に対し線形予測分析を行って得られる第1線形予測係数を用いて、前記モノラル信号に対する第1線形予測残差信号を生成し、前記第1チャネル用合成信号に対し線形予測分析を行って得られる第2線形予測係数を用いて、前記第1チャネル用合成信号に対する第2線形予測残差信号を生成し、前記第2チャネル用合成信号に対し線形予測分析を行って得られる第3線形予測係数を用いて、前記第2チャネル用合成信号に対する第3線形予測残差信号を生成する線形予測分析手段、
    をさらに具備し、
    前記合成比率調整手段は、
    前記第1線形予測残差信号と前記第2線形予測残差信号との相関値である第3相関値が所定の閾値以上となるように前記第1チャネル用合成比率を調整し、前記第1線形予測残差信号と前記第3線形予測残差信号との相関値である第4相関値が所定の閾値以上となるように前記第2チャネル用合成比率を調整する、
    請求項1記載のステレオ音声符号化装置。
  4. 前記合成比率調整手段は、
    前記第1チャネル用合成比率および第2チャネル用合成比率の初期値をそれぞれ設定し、前記第3相関値が所定の閾値以上となるまで前記第1チャネル用合成比率を減少することにより前記第1チャネル用合成比率を調整し、前記第4相関値が所定の閾値以上となるまで前記第2チャネル用合成比率を減少することにより前記第2チャネル用合成比率を調整する、
    請求項3記載のステレオ音声符号化装置。
  5. 前記合成比率調整手段は、
    過去フレームのチャネル間予測に用いられた前記第1チャネル用合成信号を生成する前記第1チャネル用合成比率に所定の値を加算し、加算結果を前記第1チャネル用合成比率の初期値とし、さらに、過去フレームのチャネル間予測に用いられた前記第2チャネル用合成信号を生成する前記第2チャネル用合成比率に所定の値を加算し、加算結果を前記第2チャネル用合成比率の初期値とする、
    請求項1記載のステレオ音声符号化装置。
  6. 2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するステップと、
    第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整ステップと、
    前記合成比率調整手段が調整した第1チャネル用合成比率および第2チャネル合成比率それぞれを用いて、前記第1チャネル信号と前記第2チャネル信号とを合成し第1チャネル用合成信号および第2チャネル合成信号それぞれを生成するステップと、
    前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うステップと、
    を具備し、
    前記合成比率調整ステップにおいては、
    前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整する、
    ステレオ音声符号化方法。
JP2009511677A 2007-04-20 2008-04-18 ステレオ音声符号化装置およびステレオ音声符号化方法 Withdrawn JPWO2008132826A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007111864 2007-04-20
JP2007111864 2007-04-20
PCT/JP2008/001031 WO2008132826A1 (ja) 2007-04-20 2008-04-18 ステレオ音声符号化装置およびステレオ音声符号化方法

Publications (1)

Publication Number Publication Date
JPWO2008132826A1 true JPWO2008132826A1 (ja) 2010-07-22

Family

ID=39925298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009511677A Withdrawn JPWO2008132826A1 (ja) 2007-04-20 2008-04-18 ステレオ音声符号化装置およびステレオ音声符号化方法

Country Status (3)

Country Link
US (1) US20100121633A1 (ja)
JP (1) JPWO2008132826A1 (ja)
WO (1) WO2008132826A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008090970A1 (ja) * 2007-01-26 2008-07-31 Panasonic Corporation ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
EP2254110B1 (en) * 2008-03-19 2014-04-30 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
WO2010140350A1 (ja) * 2009-06-02 2010-12-09 パナソニック株式会社 ダウンミックス装置、符号化装置、及びこれらの方法
US8942989B2 (en) * 2009-12-28 2015-01-27 Panasonic Intellectual Property Corporation Of America Speech coding of principal-component channels for deleting redundant inter-channel parameters
EP3961623A1 (en) 2015-09-25 2022-03-02 VoiceAge Corporation Method and system for decoding left and right channels of a stereo sound signal
CN110709925B (zh) * 2017-04-10 2023-09-29 诺基亚技术有限公司 用于音频编码或解码的方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0382300A (ja) * 1989-08-25 1991-04-08 Sharp Corp ステレオ聴感補正回路
DE4320990B4 (de) * 1993-06-05 2004-04-29 Robert Bosch Gmbh Verfahren zur Redundanzreduktion
JPH0795170A (ja) * 1993-09-20 1995-04-07 Fujitsu Ten Ltd ステレオ分離度の調整方法および装置
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
KR101049751B1 (ko) * 2003-02-11 2011-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
WO2007116809A1 (ja) * 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JP4999846B2 (ja) * 2006-08-04 2012-08-15 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法

Also Published As

Publication number Publication date
US20100121633A1 (en) 2010-05-13
WO2008132826A1 (ja) 2008-11-06

Similar Documents

Publication Publication Date Title
JP5171256B2 (ja) ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
JP5243527B2 (ja) 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
US8817992B2 (en) Multichannel audio coder and decoder
JP5413839B2 (ja) 符号化装置および復号装置
EP1801783B1 (en) Scalable encoding device, scalable decoding device, and method thereof
US20080154583A1 (en) Stereo Signal Generating Apparatus and Stereo Signal Generating Method
US8150702B2 (en) Stereo audio encoding device, stereo audio decoding device, and method thereof
JP5153791B2 (ja) ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
US8036390B2 (en) Scalable encoding device and scalable encoding method
JPWO2007116809A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
US20120072207A1 (en) Down-mixing device, encoder, and method therefor
US20100121632A1 (en) Stereo audio encoding device, stereo audio decoding device, and their method
US20080162148A1 (en) Scalable Encoding Apparatus And Scalable Encoding Method
JPWO2008132826A1 (ja) ステレオ音声符号化装置およびステレオ音声符号化方法
JP2007187749A (ja) マルチチャンネル符号化における頭部伝達関数をサポートするための新装置
JPWO2008090970A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110404

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20120405