JPWO2008132826A1 - ステレオ音声符号化装置およびステレオ音声符号化方法 - Google Patents
ステレオ音声符号化装置およびステレオ音声符号化方法 Download PDFInfo
- Publication number
- JPWO2008132826A1 JPWO2008132826A1 JP2009511677A JP2009511677A JPWO2008132826A1 JP WO2008132826 A1 JPWO2008132826 A1 JP WO2008132826A1 JP 2009511677 A JP2009511677 A JP 2009511677A JP 2009511677 A JP2009511677 A JP 2009511677A JP WO2008132826 A1 JPWO2008132826 A1 JP WO2008132826A1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- channel
- ratio
- stereo
- monaural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 56
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 126
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 126
- 238000004458 analytical method Methods 0.000 claims abstract description 86
- 239000002131 composite material Substances 0.000 claims abstract description 44
- 230000003044 adaptive effect Effects 0.000 claims abstract description 28
- 230000003247 decreasing effect Effects 0.000 claims abstract description 5
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 62
- 239000000203 mixture Substances 0.000 description 24
- 238000013139 quantization Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000010295 mobile communication Methods 0.000 description 10
- 238000000926 separation method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 101000591286 Homo sapiens Myocardin-related transcription factor A Proteins 0.000 description 2
- 102100034099 Myocardin-related transcription factor A Human genes 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ビットレートを抑えつつ、チャネル間相関が低いステレオ音声信号のICP精度を向上することができるステレオ音声符号化装置を提供する。この装置(100)において、モノラル信号生成部(101)は、左チャネル信号Lと右チャネル信号Rとの平均値をモノラル信号Mとして生成し、適応合成部(103)は、合成比率調整部(105)から入力される合成比率αを用いて左チャネル信号Lと右チャネル信号Rとの合成信号L2を生成し、LPC分析部(102、104)それぞれは、モノラル信号Mおよび合成信号L2それぞれに対しLPC分析を行い、線形予測残差信号Me、L2eそれぞれを生成し、合成比率調整部(105)は、まず、合成比率αを1.0に初期化し、次いで線形予測残差信号L2eとMeとの相関値が所定値以上となるまで、合成比率αを減少し、ICP分析部(106)は、MeおよびL2eを用いてICP分析を行う。
Description
本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置およびこれに対応するステレオ音声符号化方法に関する。
携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信(モノラル通信)が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信(ステレオ通信)が普及することが期待される。
例えば、音楽をHDD(ハードディスク)搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。
また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さいため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号とからなるスケーラブル符号化がある。
このようなスケーラブル符号化において、モノラル信号からステレオ信号を合成する技術として、例えば非特許文献1記載のMPEG2/4 AAC(Moving Picture Experts Group 2/4 Advanced Audio Coding)に使用されるISC(Intensity Stereo Coding:強度ステレオ符号化)、非特許文献2記載のMPEG4エンハンストAACまたは非特許文献3記載のMPEGサラウンドに使用されるBCC(Binaural Cue Coding:バイノーラルキュー符号化)などがある。これらの符号化においては、モノラル信号からステレオ信号の左チャネル信号および右チャネル信号を再生する際は、復号される左右両チャネル信号のエネルギ比が、符号化側において符号化された元の左右両チャネル信号のエネルギ比と等しくなるように、モノラル信号のエネルギを復号される左右両チャネル信号に配分する。また、これらの符号化において音声幅を向上するために、逆相関器を用いて再生信号に残響成分を加える。
また、モノラル信号からステレオ信号、例えば左チャネル信号および右チャネル信号を再生する別の方法としては、モノラル信号に対しFIR(Finite Impulse Response)フィルタリング処理を行ってステレオ信号の左右両チャネル信号を再構築するチャネル間予測(ICP:Inter-channel Prediction)がある。ICP符号化に用いられるFIRフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化(MSE:Least mean squared error)により求められる。このようなICP方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
しかしながら、ICP方式のステレオ符号化は、左チャネル信号および右チャネル信号の予測に用いられる情報としてチャネル間固有の相関関係を用いるため、チャネル間相関が低い音声信号に対しICP方式の符号化を行う場合、復号音声の音質が劣化するという問題が生じる。特に、時間領域における信号波形の遷移が滑らかでない信号、例えばノイズフロア上の規則的ピッチスパイクが特徴となる残差信号の有声部に対するICPは難しくなる。
同一音源で発生した信号を異なる位置で取得した左右両チャネル信号それぞれは、音源からの距離が異なるため、一方のチャネル信号は、他方のチャネル信号の時間的に遅延された複製信号となる。左右両チャネル間のこの遅延は、ピッチスパイク間の不適切な配置(misalignment)を生じる。このピッチスパイクのずれは、左右両チャネル信号間の相関を低下させる原因となり、ICPの予測が適切に行われない原因となる。そして、ICPの予測が適切に行われないことにより、復号音声のフレーム間不連続の発生、および復号音声のステレオ音像の不安定性を招く。
このような、問題を解決するためには、ICPの予測次数を向上させる方法が考えられる。しかし、復号音声のフレーム間不連続性、およびステレオ音像の不安定性を、聞き手に不快感を与えない程度に抑えるためには、ICP次数をほぼフレームサイズに近い次数まで向上する必要があり、これはビットレートの大幅な増加を意味する。
本発明の目的は、ビットレートを抑えつつ、チャネル間相関が低いステレオ信号のICP性能を向上させることができるステレオ音声符号化装置およびステレオ音声符号化方法を提供することである。
本発明のステレオ音声符号化装置は、2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するモノラル信号生成手段と、第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整手段と、前記合成比率調整手段が調整した第1チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第1チャネル用合成信号を生成し、さらに、前記合成比率調整手段が調整した第2チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第2チャネル用合成信号を生成する適応合成手段と、前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うチャネル間予測手段と、を具備し、前記合成比率調整手段は、前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整する構成を採る。
本発明のステレオ音声符号化方法は、2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するステップと、第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整ステップと、前記合成比率調整手段が調整した第1チャネル用合成比率および第2チャネル合成比率それぞれを用いて、前記第1チャネル信号と前記第2チャネル信号とを合成し第1チャネル用合成信号および第2チャネル合成信号それぞれを生成するステップと、前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うステップと、を具備し、前記合成比率調整ステップにおいては、前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整するようにした。
本発明によれば、ステレオ音声符号化において、ビットレートを抑えつつ、チャネル間相関が低い音声信号に対するICP性能を向上させることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
図1は、本発明の実施の形態に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。以下、ステレオ信号として左チャネルおよび右チャネルの2つのチャネルからなる場合を例にとって説明する。なお、左チャネル、右チャネル、L、Rという表記は、説明の便宜上の名称であって、必ずしも、左、右、という位置的条件を限定するものではない。
図1において、ステレオ音声符号化装置100は、モノラル信号生成部101、LPC(Linear Prediction Coefficients)分析部102、適応合成部103、LPC分析部104、合成比率調整部105、ICP分析部106、ICP係数量子化部107、LPC係数量子化部108、モノラル信号符号化部109、相関値算出部110、および多重部111を備える。
モノラル信号生成部101は、ステレオ音声符号化装置100に入力されるステレオ音声信号、すなわち、左チャネル信号Lおよび右チャネル信号Rからモノラル信号Mを生成して、LPC分析部102およびモノラル信号符号化部109に出力する。モノラル信号Mは、本実施の形態においては一例として、下記の式(1)に従い、左チャネル信号Lおよび右チャネル信号Rの平均値を求めることにより生成される。
M=(L+R)/2 …(1)
M=(L+R)/2 …(1)
LPC分析部102は、モノラル信号生成部101から入力されるモノラル信号Mを用いてLPC分析を行い、分析により得られた線形予測係数を用いてモノラル信号Mに対する線形予測残差信号Meを求めて合成比率調整部105およびICP分析部106に出力する。
適応合成部103は、合成比率調整部105において適応的に調整された左チャネル用合成比率αを用いて、ステレオ音声符号化装置100に入力される左チャネル信号Lおよび右チャネル信号Rを下記の式(2)に適用し、左チャネル用合成信号L2’’を生成する。また、適応合成部103は、得られる左チャネル用合成信号L2’’に対して、下記の式(3)に従いエネルギ調整を行い、エネルギ調整された左チャネル用合成信号L2をLPC分析部104に出力する。
L2’’=α・L+(1−α)・R …(2)
L2’’=α・L+(1−α)・R …(2)
式(2)に示すように、左チャネル用合成比率αは、左チャネル用合成信号L2に含まれる左チャネル信号Lおよび右チャネル信号Rそれぞれの比率である。式(3)において、framesizeは1フレームのサンプル数を示す(以下同様)。式(3)に示すエネルギ調整によれば、左チャネル用合成信号L2のエネルギは左チャネル信号Lのエネルギと等しくなる。
同様に、適応合成部103は、合成比率調整部105において適応的に調整された右チャネル用合成比率βを用いて、ステレオ音声符号化装置100に入力される左チャネル信号Lおよび右チャネル信号Rを下記の式(4)に適用し、右チャネル用合成信号R2’’を生成する。また、適応合成部103は、得られる右チャネル用合成信号R2’’に対して、下記の式(5)に従いエネルギ調整を行い、エネルギ調整された右チャネル用合成信号R2をLPC分析部104に出力する。
R2’’=β・R+(1−β)・L …(4)
R2’’=β・R+(1−β)・L …(4)
LPC分析部104は、適応合成部103から入力される左チャネル用合成信号L2に対しLPC分析を行い、得られる左チャネル用線形予測係数LPCLをLPC係数量子化部108に出力し、同様に、適応合成部103から入力される右チャネル用合成信号R2に対しLPC分析を行い、得られる右チャネル用線形予測係数LPCRをLPC係数量子化部108に出力する。また、LPC分析部104は、得られた左チャネル用線形予測係数LPCLを用いて、左チャネル合成信号L2に対する線形予測残差信号L2eを求めて合成比率調整部105およびICP分析部106に出力し、同様に、右チャネル用線形予測係数LPCRを用いて、右チャネル合成信号R2に対する線形予測残差信号R2eを求めて合成比率調整部105およびICP分析部106に出力する。
合成比率調整部105は、まず、左チャネル用合成比率αを1.0に初期化し、次いで、LPC分析部104から入力される線形予測残差信号L2eとLPC分析部102から入力される線形予測残差信号Meとのフレーム単位での相関値CorrL(L2e,Me)が所定の閾値より小さい場合には左チャネル用合成比率αを減少してから適応合成部103に出力する。同様に、合成比率調整部105は、まず、右チャネル用合成比率βを1.0に初期化し、次いで、LPC分析部104から入力される線形予測残差信号R2eとLPC分析部102から入力される線形予測残差信号Meとのフレーム単位での相関値CorrR(R2e,Me)が所定の閾値より小さい場合には右チャネル用合成比率βを減少してから適応合成部103に出力する。このように、合成比率調整部105は、相関値CorrL(L2e,Me)、CorrR(R2e,Me)それぞれが所定の閾値以上となるまで、適応合成部103、LPC分析部104とともに合成比率α、βを調整するループ処理をそれぞれ行う。合成比率調整部105は、下記の式(6)、(7)に従って相関値CorrL(L2e,Me)、CorrR(R2e,Me)それぞれを求める。
ICP分析部106は、LPC分析部104から入力される線形予測残差信号L2eおよびLPC分析部102から入力される線形予測残差信号Meを用いて左チャネル用ICP係数hLを算出しICP係数量子化部107に出力する。左チャネル用ICP係数hLは、線形予測残差信号Meから線形予測残差信号L2eを予測するためのN次のFIRフィルタ係数であり、線形予測残差信号L2eに対する予測信号をL^2eとすると、下記の式(8)で示される。
式(8)において、nは線形予測残差信号MeおよびL2eのサンプル番号を示し、iはFIRフィルタ係数の次数を示す。FIRフィルタ係数hL(i)は平均二乗誤差最小化により求められる。具体的には、hL(i)は下記の式(9)に示す平均二乗誤差εを最小にするような値であり、従って下記の式(10)を満たす値である。式(10)を解くと式(11)に示すhLが得られる。
さらに、ICP分析部106は、LPC分析部104から入力される線形予測残差信号R2eおよびLPC分析部102から入力される線形予測残差信号Meを用いて、左チャネル用ICP係数hLを求める方法と同様な方法で右チャネル用ICP係数hRを求めてICP係数量子化部107に出力する。
ICP係数量子化部107は、ICP分析部106から入力される左チャネル用ICP係数hLおよび右チャネル用ICP係数hRを量子化し、得られる左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータを多重部111に出力する。
LPC係数量子化部108は、LPC分析部104から入力される左チャネル用線形予測係数LPCLおよび右チャネル用線形予測係数LPCRを量子化し、得られる左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータを多重部111に出力する。
モノラル信号符号化部109は、モノラル信号生成部101から入力されるモノラル信号Mに対し任意の符号化方式によりの符号化を行い、得られるモノラル信号符号化パラメータを多重部111に出力する。
多重部111は、ICP係数量子化部107から入力される左チャネル用ICP係数符号化パラメータ、右チャネル用ICP係数符号化パラメータ、LPC係数量子化部108から入力される左チャネル用LPC符号化パラメータ、右チャネル用LPC符号化パラメータ、モノラル信号符号化部109から入力されるモノラル信号符号化パラメータ、および相関値算出部110から入力される相関値Corr(L,R)を多重し、得られるビットストリームを後述のステレオ音声復号装置200に出力する。
図2は、ステレオ音声符号化装置100における合成比率αおよびβの調整手順を示すフロー図である。なお、この図においては左チャネル用合成比率αの調整手順を例にとって説明するが、右チャネル用合成比率βの調整手順はこの図に示す手順と基本的に同様であり、この図において、αをβに、L2’’をR2’’に、L2eをR2eに、hLをhRにそれぞれ置き換えたものとなる。
ステップ(以下、「ST」と省略する)1010において、合成比率調整部105は、合成比率αを「1.0」に初期化する。
次いで、ST1020において、適応合成部103は、式(2)に従い合成信号L2’’を生成する。
次いで、ST1030において、適応合成部103は、式(3)に従い合成信号L2’’に対しエネルギ調整を行って合成信号L2を得る。
次いで、ST1040において、LPC分析部104は、合成信号L2に対しLPC分析を行い線形予測残差信号L2eを生成する。
次いで、ST1050において、合成比率調整部105は、LPC分析部104から入力される線形予測残差信号L2eと、LPC分析部102から入力される線形予測残差信号Meとの相関値CorrL(L2e,Me)を算出する。
次いで、ST1060において、合成比率調整部105は、相関値CorrL(L2e,Me)が所定の閾値より小さいか否かを判定する。
ST1060において、相関値CorrL(L2e,Me)が所定の閾値より小さいと判定された場合(ST1060:「YES」)には、ST1070において、合成比率調整部105は、α=α−0.1のように合成比率αを調整する。
次いで、ST1080において、合成比率調整部105は、合成比率αが「0.5」より大きいか否かを判定する。
ST1080において、合成比率αが「0.5」より大きいと判定された場合(ST1080:「YES」)には、処理手順はST1020に移行する。
このステップにおける判定処理により、合成比率αは0.5≦α≦1.0の範囲に限定される。ここで、合成比率αの値が「1.0」となる場合、合成信号L2とモノラル信号Mとは最も相違するため、ICPの予測性能が最も劣る。一方、合成比率αの値が「0.5」に近いほど、合成信号L2とモノラル信号Mとはより近似するためICPの予測性能はより優れる。なお、上記において合成比率と比較する値は「0.5」に限定されるものではなく、適宜適切な値に設定できることは言うまでもない。
一方、ST1060において、相関値CorrL(L2e,Me)が所定の閾値以上であると判定された場合(ST1060:「NO」)、またはST1080において、合成比率αが「0.5」以下であると判定された場合(ST1080:「NO」)には、ST1090において、ICP分析部106は、LPC分析部104から入力される線形予測残差信号L2eおよびLPC分析部102から入力される線形予測残差信号Meを用いてICP係数hLを算出する。
図3は、本実施の形態に係るステレオ音声復号装置200の主要な構成を示すブロック図である。
図3において、ステレオ音声復号装置200は、分離部201、モノラル信号復号部202、LPC分析部203、ICP係数復号部204、ICP合成部205、LPC係数復号部206、LPC合成部207、およびステレオ信号再構築部208を備える。
分離部201は、ステレオ音声符号化装置100から伝送されるビットストリームをモノラル信号符号化パラメータ、左チャネル用ICP係数符号化パラメータ、右チャネル用ICP係数符号化パラメータ、左チャネル用LPC符号化パラメータ、右チャネル用LPC符号化パラメータ、および相関値Corr(L,R)に分離する。分離部201は、モノラル信号符号化パラメータをモノラル信号復号部202に、左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータをICP係数復号部204に、左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータをLPC係数復号部206に、相関値Corr(L,R)をステレオ信号再構築部208に出力する。
モノラル信号復号部202は、分離部201から入力されるモノラル信号符号化パラメータを用いて、符号化側での符号化方式に対応した方式での復号を行い、得られる復号モノラル信号M’をLPC分析部203に出力するとともに、必要に応じてステレオ音声復号装置200の外部に出力する。
LPC分析部203は、モノラル信号復号部202から入力される復号モノラル信号M’を用いてLPC分析を行い、分析により得られた線形予測係数を用いて復号モノラル信号M’に対する復号線形予測残差信号Me’を求めてICP合成部205に出力する。
ICP係数復号部204は、分離部201から入力される左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータを復号し、得られる復号ICP係数hL’およびhR’をICP合成部205に出力する。
ICP合成部205は、LPC分析部203から入力される復号線形予測残差信号Me’とICP係数復号部204から入力される復号ICP係数hL’とを用いてICP合成を行い、得られる線形予測残差信号L2e’をLPC合成部207に出力する。同様に、ICP合成部205は、LPC分析部203から入力される復号線形予測残差信号Me’とICP係数復号部204から入力される復号ICP係数hR’とを用いてICP合成を行い、得られる線形予測残差信号R2e’をLPC合成部207に出力する。
LPC係数復号部206は、分離部201から入力される左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータを復号し、得られる復号線形予測係数LPCL’およびLPCR’をLPC合成部207に出力する。
LPC合成部207は、ICP合成部205から入力される線形予測残差信号L2e’およびLPC係数復号部206から入力される復号線形予測係数LPCL’を用いてLPC合成を行い、得られる復号合成信号L2’をステレオ信号再構築部208に出力する。また、LPC合成部207は、ICP合成部205から入力される線形予測残差信号R2e’およびLPC係数復号部206から入力される復号線形予測係数LPCR’を用いてLPC合成を行い、得られる復号合成信号R2’をステレオ信号再構築部208に出力する。
ステレオ信号再構築部208は、LPC合成部207から入力される復号合成信号L2’、R2’、および分離部201から入力される相関値Corr(L,R)を用いて、ステレオ信号を構成する復号左チャネル信号L’および復号右チャネル信号R’を再構築し、ステレオ音声復号装置200の外部に出力する。
以下、ステレオ信号再構築部208においてステレオ信号を再構築する処理を具体的に説明する。
ステレオ信号再構築部208に入力される復号合成信号L2’と復号合成信号R2’との相関値Corr(L2’,R2’)は、分離部201から入力される相関値Corr(L,R)よりも高くなるのが一般的である。
ただし、ステレオ信号の左右両チャネルの相関が高いほどステレオ信号のステレオ音像が狭くなる。従って、ステレオ信号再構築部208は、分離部201から入力される相関値Corr(L,R)を用いて、復号合成信号L2’と復号合成信号R2’とに聴感的に直交する残響成分をさらに加えてからステレオ信号として出力する。ここで残響成分は、ステレオ信号の空間エンハンスメント(Spatial Enhancement)のための成分であり、オールパスフィルタまたはオールパス格子型フィルタにより算出することができる。例えば、ステレオ信号再構築部208は、下記の式(13)および式(14)に従って、左チャネル信号L’および右チャネル信号R’を再構築する。
式(13)および式(14)において、AP1(L2’)およびAP2(R2’)は相違する2つのオールパスフィルタの伝達関数を示し、cは下記の式(15)に示す値である。なお、ステレオ音像をさらに向上するためには、ステレオ信号の左右両チャネル信号を複数の周波数帯域に分割し、各周波数帯域に異なるオールパスフィルタを適用しても良い。
このように、本実施の形態によれば、ステレオ音声符号化装置はモノラル信号と合成信号との相関値が所定の閾値以上となるように、左チャネル信号と右チャネル信号との合成信号を生成し、モノラル信号と合成信号とを用いてICPを行うため、ICP次数を増加せず、ビットレートを抑えつつ、チャネル間相関が小さいステレオ信号に対するICP性能を向上することができ、復号音声信号の音質を向上することができる。
なお、本実施の形態では、合成比率αの調整ステップとして「0.1」を用いる場合を例にとって説明したが、本発明はこれに限定されず、合成比率αの調整ステップは任意の値でよく、例えばより細かい「0.05」にしても良い。また、変動具合が大きい音声信号における音の不安定性を回避するために、前のフレームのICPに用いられた合成比率αprev_frameを基準に、現フレームの合成比率αの調整範囲をαprev_frame−ρ≦α≦αprev_frame+ρに設定しても良い。ここで、ρは実数である。
また、本実施の形態では、モノラル信号符号化部109において任意の符号化方式で符号化を行うものとして説明したが、モノラル信号符号化部109がCELP(Code Excited Linear Prediction)方式または、線形予測残差信号(すなわち、励振信号)を生成する処理を含む任意の符号器とした場合には、ステレオ音声符号化装置100はLPC分析部102を備えなくても良い。
また、本実施の形態では、合成比率調整部105は、線形予測残差信号L2eと線形予測残差信号Meとの相関値に基づき合成比率αを調整する場合を例にとって説明したが、本発明はこれに限定されず、図4に示すステレオ音声符号化装置300のように、合成比率調整部105aは、合成信号L2とモノラル信号Mとの相関値に基づき合成比率αを調整しても良い。合成比率βに関しても同様である。
また、本実施の形態では、ステレオ音声符号化装置100は、ICP方式の符号化を行う前にさらにLPC分析を行う場合を例にとって説明したが、本発明に係るステレオ音声符号化装置はこれに限定されず、図5に示すステレオ音声符号化装置400のように、LPC分析を行わない構成でも良く、これにより、符号化処理を簡略化させ、演算量を減少させることができる。かかる場合、対応するステレオ音声復号装置500の構成は図6に示すようになる。
また、本実施の形態では、ステレオ信号が第1チャネル信号および第2チャネル信号として左チャネル信号Lおよび右チャネル信号Rの2つのチャネル信号からなる場合を例にとって説明したが、本発明はこれに限定されず、LとRとは逆でも良く、また、ステレオ信号が3つ以上のチャネル信号からなっても良い。かかる場合、3つ以上のチャネル信号の平均値をモノラル信号Mとして生成し、3つ以上のチャネル信号を用いて合成信号L2を生成する。なお、本実施の形態では、Mは平均値としたが、これに限定されず、LとRとを用いて適切に求められる代表値であれば良い。
なお、本実施の形態におけるステレオ音声復号装置は、本実施の形態におけるステレオ音声符号化装置から伝送されたビットストリームを用いて処理を行なうとしたが、本発明はこれに限定されず、必要なパラメータやデータを含むビットストリームであれば、必ずしも本実施の形態におけるステレオ音声符号化装置からのビットストリームでなくても処理は可能である。
本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。また、本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、有線方式の通信システムにおいても利用可能である。
なお、本明細書では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化/復号に本発明を適用するような構成としても良い。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2007年4月20日出願の特願2007−111864の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。
本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置およびこれに対応するステレオ音声符号化方法に関する。
携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信(モノラル通信)が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信(ステレオ通信)が普及することが期待される。
例えば、音楽をHDD(ハードディスク)搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。
また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さいため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号とからなるスケーラブル符号化がある。
このようなスケーラブル符号化において、モノラル信号からステレオ信号を合成する技術として、例えば非特許文献1記載のMPEG2/4 AAC(Moving Picture Experts Group 2/4 Advanced Audio Coding)に使用されるISC(Intensity Stereo Coding:強度ステレオ符号化)、非特許文献2記載のMPEG4エンハンストAACまたは非特許文献3記載のMPEGサラウンドに使用されるBCC(Binaural Cue Coding:バイノーラルキュー符号化)などがある。これらの符号化においては、モノラル信号からステレオ信号の左チャネル信号および右チャネル信号を再生する際は、復号される左右両チャネル信号のエネルギ比が、符号化側において符号化された元の左右両チャネル信号のエネルギ比と等しくなるように、モノラル信号のエネルギを復号される左右両チャネル信号に配分する。また、これらの符号化において音声幅を向上するために、逆相関器を用いて再生信号に残響成分を加える。
また、モノラル信号からステレオ信号、例えば左チャネル信号および右チャネル信号を再生する別の方法としては、モノラル信号に対しFIR(Finite Impulse Response)フィルタリング処理を行ってステレオ信号の左右両チャネル信号を再構築するチャネル間予
測(ICP:Inter-channel Prediction)がある。ICP符号化に用いられるFIRフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化(MSE:Least mean squared error)により求められる。このようなICP方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
測(ICP:Inter-channel Prediction)がある。ICP符号化に用いられるFIRフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化(MSE:Least mean squared error)により求められる。このようなICP方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
しかしながら、ICP方式のステレオ符号化は、左チャネル信号および右チャネル信号の予測に用いられる情報としてチャネル間固有の相関関係を用いるため、チャネル間相関が低い音声信号に対しICP方式の符号化を行う場合、復号音声の音質が劣化するという問題が生じる。特に、時間領域における信号波形の遷移が滑らかでない信号、例えばノイズフロア上の規則的ピッチスパイクが特徴となる残差信号の有声部に対するICPは難しくなる。
同一音源で発生した信号を異なる位置で取得した左右両チャネル信号それぞれは、音源からの距離が異なるため、一方のチャネル信号は、他方のチャネル信号の時間的に遅延された複製信号となる。左右両チャネル間のこの遅延は、ピッチスパイク間の不適切な配置(misalignment)を生じる。このピッチスパイクのずれは、左右両チャネル信号間の相関を低下させる原因となり、ICPの予測が適切に行われない原因となる。そして、ICPの予測が適切に行われないことにより、復号音声のフレーム間不連続の発生、および復号音声のステレオ音像の不安定性を招く。
このような、問題を解決するためには、ICPの予測次数を向上させる方法が考えられる。しかし、復号音声のフレーム間不連続性、およびステレオ音像の不安定性を、聞き手に不快感を与えない程度に抑えるためには、ICP次数をほぼフレームサイズに近い次数まで向上する必要があり、これはビットレートの大幅な増加を意味する。
本発明の目的は、ビットレートを抑えつつ、チャネル間相関が低いステレオ信号のICP性能を向上させることができるステレオ音声符号化装置およびステレオ音声符号化方法を提供することである。
本発明のステレオ音声符号化装置は、2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するモノラル信号生成手段と、第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整手段と、前記合成比率調整手段が調整した第1チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第1チャネル用合成信号を生成し、さらに、前記合成比率調整手段が調整した第2チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第2チャネル用合成信号を生成する適応合成手段と、前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うチャネル間予測手段と、を具備し、前記合成比率調整手段は、前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号と
の相関に基づいて前記第2チャネル用合成比率を調整する構成を採る。
の相関に基づいて前記第2チャネル用合成比率を調整する構成を採る。
本発明のステレオ音声符号化方法は、2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するステップと、第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整ステップと、前記合成比率調整手段が調整した第1チャネル用合成比率および第2チャネル合成比率それぞれを用いて、前記第1チャネル信号と前記第2チャネル信号とを合成し第1チャネル用合成信号および第2チャネル合成信号それぞれを生成するステップと、前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うステップと、を具備し、前記合成比率調整ステップにおいては、前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整するようにした。
本発明によれば、ステレオ音声符号化において、ビットレートを抑えつつ、チャネル間相関が低い音声信号に対するICP性能を向上させることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
図1は、本発明の実施の形態に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。以下、ステレオ信号として左チャネルおよび右チャネルの2つのチャネルからなる場合を例にとって説明する。なお、左チャネル、右チャネル、L、Rという表記は、説明の便宜上の名称であって、必ずしも、左、右、という位置的条件を限定するものではない。
図1において、ステレオ音声符号化装置100は、モノラル信号生成部101、LPC(Linear Prediction Coefficients)分析部102、適応合成部103、LPC分析部104、合成比率調整部105、ICP分析部106、ICP係数量子化部107、LPC係数量子化部108、モノラル信号符号化部109、相関値算出部110、および多重部111を備える。
モノラル信号生成部101は、ステレオ音声符号化装置100に入力されるステレオ音声信号、すなわち、左チャネル信号Lおよび右チャネル信号Rからモノラル信号Mを生成
して、LPC分析部102およびモノラル信号符号化部109に出力する。モノラル信号Mは、本実施の形態においては一例として、下記の式(1)に従い、左チャネル信号Lおよび右チャネル信号Rの平均値を求めることにより生成される。
M=(L+R)/2 …(1)
して、LPC分析部102およびモノラル信号符号化部109に出力する。モノラル信号Mは、本実施の形態においては一例として、下記の式(1)に従い、左チャネル信号Lおよび右チャネル信号Rの平均値を求めることにより生成される。
M=(L+R)/2 …(1)
LPC分析部102は、モノラル信号生成部101から入力されるモノラル信号Mを用いてLPC分析を行い、分析により得られた線形予測係数を用いてモノラル信号Mに対する線形予測残差信号Meを求めて合成比率調整部105およびICP分析部106に出力する。
適応合成部103は、合成比率調整部105において適応的に調整された左チャネル用合成比率αを用いて、ステレオ音声符号化装置100に入力される左チャネル信号Lおよび右チャネル信号Rを下記の式(2)に適用し、左チャネル用合成信号L2’’を生成する。また、適応合成部103は、得られる左チャネル用合成信号L2’’に対して、下記の式(3)に従いエネルギ調整を行い、エネルギ調整された左チャネル用合成信号L2をLPC分析部104に出力する。
L2’’=α・L+(1−α)・R …(2)
L2’’=α・L+(1−α)・R …(2)
式(2)に示すように、左チャネル用合成比率αは、左チャネル用合成信号L2に含まれる左チャネル信号Lおよび右チャネル信号Rそれぞれの比率である。式(3)において、framesizeは1フレームのサンプル数を示す(以下同様)。式(3)に示すエネルギ調整によれば、左チャネル用合成信号L2のエネルギは左チャネル信号Lのエネルギと等しくなる。
同様に、適応合成部103は、合成比率調整部105において適応的に調整された右チャネル用合成比率βを用いて、ステレオ音声符号化装置100に入力される左チャネル信号Lおよび右チャネル信号Rを下記の式(4)に適用し、右チャネル用合成信号R2’’を生成する。また、適応合成部103は、得られる右チャネル用合成信号R2’’に対して、下記の式(5)に従いエネルギ調整を行い、エネルギ調整された右チャネル用合成信号R2をLPC分析部104に出力する。
R2’’=β・R+(1−β)・L …(4)
R2’’=β・R+(1−β)・L …(4)
LPC分析部104は、適応合成部103から入力される左チャネル用合成信号L2に対しLPC分析を行い、得られる左チャネル用線形予測係数LPCLをLPC係数量子化部108に出力し、同様に、適応合成部103から入力される右チャネル用合成信号R2に対しLPC分析を行い、得られる右チャネル用線形予測係数LPCRをLPC係数量子化部108に出力する。また、LPC分析部104は、得られた左チャネル用線形予測係数LPCLを用いて、左チャネル合成信号L2に対する線形予測残差信号L2eを求めて
合成比率調整部105およびICP分析部106に出力し、同様に、右チャネル用線形予測係数LPCRを用いて、右チャネル合成信号R2に対する線形予測残差信号R2eを求めて合成比率調整部105およびICP分析部106に出力する。
合成比率調整部105およびICP分析部106に出力し、同様に、右チャネル用線形予測係数LPCRを用いて、右チャネル合成信号R2に対する線形予測残差信号R2eを求めて合成比率調整部105およびICP分析部106に出力する。
合成比率調整部105は、まず、左チャネル用合成比率αを1.0に初期化し、次いで、LPC分析部104から入力される線形予測残差信号L2eとLPC分析部102から入力される線形予測残差信号Meとのフレーム単位での相関値CorrL(L2e,Me)が所定の閾値より小さい場合には左チャネル用合成比率αを減少してから適応合成部103に出力する。同様に、合成比率調整部105は、まず、右チャネル用合成比率βを1.0に初期化し、次いで、LPC分析部104から入力される線形予測残差信号R2eとLPC分析部102から入力される線形予測残差信号Meとのフレーム単位での相関値CorrR(R2e,Me)が所定の閾値より小さい場合には右チャネル用合成比率βを減少してから適応合成部103に出力する。このように、合成比率調整部105は、相関値CorrL(L2e,Me)、CorrR(R2e,Me)それぞれが所定の閾値以上となるまで、適応合成部103、LPC分析部104とともに合成比率α、βを調整するループ処理をそれぞれ行う。合成比率調整部105は、下記の式(6)、(7)に従って相関値CorrL(L2e,Me)、CorrR(R2e,Me)それぞれを求める。
ICP分析部106は、LPC分析部104から入力される線形予測残差信号L2eおよびLPC分析部102から入力される線形予測残差信号Meを用いて左チャネル用ICP係数hLを算出しICP係数量子化部107に出力する。左チャネル用ICP係数hLは、線形予測残差信号Meから線形予測残差信号L2eを予測するためのN次のFIRフィルタ係数であり、線形予測残差信号L2eに対する予測信号をL^2eとすると、下記の式(8)で示される。
式(8)において、nは線形予測残差信号MeおよびL2eのサンプル番号を示し、iはFIRフィルタ係数の次数を示す。FIRフィルタ係数hL(i)は平均二乗誤差最小化により求められる。具体的には、hL(i)は下記の式(9)に示す平均二乗誤差εを最小にするような値であり、従って下記の式(10)を満たす値である。式(10)を解くと式(11)に示すhLが得られる。
さらに、ICP分析部106は、LPC分析部104から入力される線形予測残差信号R2eおよびLPC分析部102から入力される線形予測残差信号Meを用いて、左チャネル用ICP係数hLを求める方法と同様な方法で右チャネル用ICP係数hRを求めてICP係数量子化部107に出力する。
ICP係数量子化部107は、ICP分析部106から入力される左チャネル用ICP係数hLおよび右チャネル用ICP係数hRを量子化し、得られる左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータを多重部111に出力する。
LPC係数量子化部108は、LPC分析部104から入力される左チャネル用線形予測係数LPCLおよび右チャネル用線形予測係数LPCRを量子化し、得られる左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータを多重部111に出力する。
モノラル信号符号化部109は、モノラル信号生成部101から入力されるモノラル信号Mに対し任意の符号化方式によりの符号化を行い、得られるモノラル信号符号化パラメータを多重部111に出力する。
多重部111は、ICP係数量子化部107から入力される左チャネル用ICP係数符号化パラメータ、右チャネル用ICP係数符号化パラメータ、LPC係数量子化部108
から入力される左チャネル用LPC符号化パラメータ、右チャネル用LPC符号化パラメータ、モノラル信号符号化部109から入力されるモノラル信号符号化パラメータ、および相関値算出部110から入力される相関値Corr(L,R)を多重し、得られるビットストリームを後述のステレオ音声復号装置200に出力する。
から入力される左チャネル用LPC符号化パラメータ、右チャネル用LPC符号化パラメータ、モノラル信号符号化部109から入力されるモノラル信号符号化パラメータ、および相関値算出部110から入力される相関値Corr(L,R)を多重し、得られるビットストリームを後述のステレオ音声復号装置200に出力する。
図2は、ステレオ音声符号化装置100における合成比率αおよびβの調整手順を示すフロー図である。なお、この図においては左チャネル用合成比率αの調整手順を例にとって説明するが、右チャネル用合成比率βの調整手順はこの図に示す手順と基本的に同様であり、この図において、αをβに、L2’’をR2’’に、L2eをR2eに、hLをhRにそれぞれ置き換えたものとなる。
ステップ(以下、「ST」と省略する)1010において、合成比率調整部105は、合成比率αを「1.0」に初期化する。
次いで、ST1020において、適応合成部103は、式(2)に従い合成信号L2’’を生成する。
次いで、ST1030において、適応合成部103は、式(3)に従い合成信号L2’’に対しエネルギ調整を行って合成信号L2を得る。
次いで、ST1040において、LPC分析部104は、合成信号L2に対しLPC分析を行い線形予測残差信号L2eを生成する。
次いで、ST1050において、合成比率調整部105は、LPC分析部104から入力される線形予測残差信号L2eと、LPC分析部102から入力される線形予測残差信号Meとの相関値CorrL(L2e,Me)を算出する。
次いで、ST1060において、合成比率調整部105は、相関値CorrL(L2e,Me)が所定の閾値より小さいか否かを判定する。
ST1060において、相関値CorrL(L2e,Me)が所定の閾値より小さいと判定された場合(ST1060:「YES」)には、ST1070において、合成比率調整部105は、α=α−0.1のように合成比率αを調整する。
次いで、ST1080において、合成比率調整部105は、合成比率αが「0.5」より大きいか否かを判定する。
ST1080において、合成比率αが「0.5」より大きいと判定された場合(ST1080:「YES」)には、処理手順はST1020に移行する。
このステップにおける判定処理により、合成比率αは0.5≦α≦1.0の範囲に限定される。ここで、合成比率αの値が「1.0」となる場合、合成信号L2とモノラル信号Mとは最も相違するため、ICPの予測性能が最も劣る。一方、合成比率αの値が「0.5」に近いほど、合成信号L2とモノラル信号Mとはより近似するためICPの予測性能はより優れる。なお、上記において合成比率と比較する値は「0.5」に限定されるものではなく、適宜適切な値に設定できることは言うまでもない。
一方、ST1060において、相関値CorrL(L2e,Me)が所定の閾値以上であると判定された場合(ST1060:「NO」)、またはST1080において、合成比率αが「0.5」以下であると判定された場合(ST1080:「NO」)には、ST
1090において、ICP分析部106は、LPC分析部104から入力される線形予測残差信号L2eおよびLPC分析部102から入力される線形予測残差信号Meを用いてICP係数hLを算出する。
1090において、ICP分析部106は、LPC分析部104から入力される線形予測残差信号L2eおよびLPC分析部102から入力される線形予測残差信号Meを用いてICP係数hLを算出する。
図3は、本実施の形態に係るステレオ音声復号装置200の主要な構成を示すブロック図である。
図3において、ステレオ音声復号装置200は、分離部201、モノラル信号復号部202、LPC分析部203、ICP係数復号部204、ICP合成部205、LPC係数復号部206、LPC合成部207、およびステレオ信号再構築部208を備える。
分離部201は、ステレオ音声符号化装置100から伝送されるビットストリームをモノラル信号符号化パラメータ、左チャネル用ICP係数符号化パラメータ、右チャネル用ICP係数符号化パラメータ、左チャネル用LPC符号化パラメータ、右チャネル用LPC符号化パラメータ、および相関値Corr(L,R)に分離する。分離部201は、モノラル信号符号化パラメータをモノラル信号復号部202に、左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータをICP係数復号部204に、左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータをLPC係数復号部206に、相関値Corr(L,R)をステレオ信号再構築部208に出力する。
モノラル信号復号部202は、分離部201から入力されるモノラル信号符号化パラメータを用いて、符号化側での符号化方式に対応した方式での復号を行い、得られる復号モノラル信号M’をLPC分析部203に出力するとともに、必要に応じてステレオ音声復号装置200の外部に出力する。
LPC分析部203は、モノラル信号復号部202から入力される復号モノラル信号M’を用いてLPC分析を行い、分析により得られた線形予測係数を用いて復号モノラル信号M’に対する復号線形予測残差信号Me’を求めてICP合成部205に出力する。
ICP係数復号部204は、分離部201から入力される左チャネル用ICP係数符号化パラメータおよび右チャネル用ICP係数符号化パラメータを復号し、得られる復号ICP係数hL’およびhR’をICP合成部205に出力する。
ICP合成部205は、LPC分析部203から入力される復号線形予測残差信号Me’とICP係数復号部204から入力される復号ICP係数hL’とを用いてICP合成を行い、得られる線形予測残差信号L2e’をLPC合成部207に出力する。同様に、ICP合成部205は、LPC分析部203から入力される復号線形予測残差信号Me’とICP係数復号部204から入力される復号ICP係数hR’とを用いてICP合成を行い、得られる線形予測残差信号R2e’をLPC合成部207に出力する。
LPC係数復号部206は、分離部201から入力される左チャネル用LPC符号化パラメータおよび右チャネル用LPC符号化パラメータを復号し、得られる復号線形予測係数LPCL’およびLPCR’をLPC合成部207に出力する。
LPC合成部207は、ICP合成部205から入力される線形予測残差信号L2e’およびLPC係数復号部206から入力される復号線形予測係数LPCL’を用いてLPC合成を行い、得られる復号合成信号L2’をステレオ信号再構築部208に出力する。また、LPC合成部207は、ICP合成部205から入力される線形予測残差信号R2e’およびLPC係数復号部206から入力される復号線形予測係数LPCR’を用いて
LPC合成を行い、得られる復号合成信号R2’をステレオ信号再構築部208に出力する。
LPC合成を行い、得られる復号合成信号R2’をステレオ信号再構築部208に出力する。
ステレオ信号再構築部208は、LPC合成部207から入力される復号合成信号L2’、R2’、および分離部201から入力される相関値Corr(L,R)を用いて、ステレオ信号を構成する復号左チャネル信号L’および復号右チャネル信号R’を再構築し、ステレオ音声復号装置200の外部に出力する。
以下、ステレオ信号再構築部208においてステレオ信号を再構築する処理を具体的に説明する。
ステレオ信号再構築部208に入力される復号合成信号L2’と復号合成信号R2’との相関値Corr(L2’,R2’)は、分離部201から入力される相関値Corr(L,R)よりも高くなるのが一般的である。
ただし、ステレオ信号の左右両チャネルの相関が高いほどステレオ信号のステレオ音像が狭くなる。従って、ステレオ信号再構築部208は、分離部201から入力される相関値Corr(L,R)を用いて、復号合成信号L2’と復号合成信号R2’とに聴感的に直交する残響成分をさらに加えてからステレオ信号として出力する。ここで残響成分は、ステレオ信号の空間エンハンスメント(Spatial Enhancement)のための成分であり、オールパスフィルタまたはオールパス格子型フィルタにより算出することができる。例えば、ステレオ信号再構築部208は、下記の式(13)および式(14)に従って、左チャネル信号L’および右チャネル信号R’を再構築する。
式(13)および式(14)において、AP1(L2’)およびAP2(R2’)は相違する2つのオールパスフィルタの伝達関数を示し、cは下記の式(15)に示す値である。なお、ステレオ音像をさらに向上するためには、ステレオ信号の左右両チャネル信号を複数の周波数帯域に分割し、各周波数帯域に異なるオールパスフィルタを適用しても良い。
このように、本実施の形態によれば、ステレオ音声符号化装置はモノラル信号と合成信号との相関値が所定の閾値以上となるように、左チャネル信号と右チャネル信号との合成
信号を生成し、モノラル信号と合成信号とを用いてICPを行うため、ICP次数を増加せず、ビットレートを抑えつつ、チャネル間相関が小さいステレオ信号に対するICP性能を向上することができ、復号音声信号の音質を向上することができる。
信号を生成し、モノラル信号と合成信号とを用いてICPを行うため、ICP次数を増加せず、ビットレートを抑えつつ、チャネル間相関が小さいステレオ信号に対するICP性能を向上することができ、復号音声信号の音質を向上することができる。
なお、本実施の形態では、合成比率αの調整ステップとして「0.1」を用いる場合を例にとって説明したが、本発明はこれに限定されず、合成比率αの調整ステップは任意の値でよく、例えばより細かい「0.05」にしても良い。また、変動具合が大きい音声信号における音の不安定性を回避するために、前のフレームのICPに用いられた合成比率αprev_frameを基準に、現フレームの合成比率αの調整範囲をαprev_frame−ρ≦α≦αprev_frame+ρに設定しても良い。ここで、ρは実数である。
また、本実施の形態では、モノラル信号符号化部109において任意の符号化方式で符号化を行うものとして説明したが、モノラル信号符号化部109がCELP(Code Excited Linear Prediction)方式または、線形予測残差信号(すなわち、励振信号)を生成する処理を含む任意の符号器とした場合には、ステレオ音声符号化装置100はLPC分析部102を備えなくても良い。
また、本実施の形態では、合成比率調整部105は、線形予測残差信号L2eと線形予測残差信号Meとの相関値に基づき合成比率αを調整する場合を例にとって説明したが、本発明はこれに限定されず、図4に示すステレオ音声符号化装置300のように、合成比率調整部105aは、合成信号L2とモノラル信号Mとの相関値に基づき合成比率αを調整しても良い。合成比率βに関しても同様である。
また、本実施の形態では、ステレオ音声符号化装置100は、ICP方式の符号化を行う前にさらにLPC分析を行う場合を例にとって説明したが、本発明に係るステレオ音声符号化装置はこれに限定されず、図5に示すステレオ音声符号化装置400のように、LPC分析を行わない構成でも良く、これにより、符号化処理を簡略化させ、演算量を減少させることができる。かかる場合、対応するステレオ音声復号装置500の構成は図6に示すようになる。
また、本実施の形態では、ステレオ信号が第1チャネル信号および第2チャネル信号として左チャネル信号Lおよび右チャネル信号Rの2つのチャネル信号からなる場合を例にとって説明したが、本発明はこれに限定されず、LとRとは逆でも良く、また、ステレオ信号が3つ以上のチャネル信号からなっても良い。かかる場合、3つ以上のチャネル信号の平均値をモノラル信号Mとして生成し、3つ以上のチャネル信号を用いて合成信号L2を生成する。なお、本実施の形態では、Mは平均値としたが、これに限定されず、LとRとを用いて適切に求められる代表値であれば良い。
なお、本実施の形態におけるステレオ音声復号装置は、本実施の形態におけるステレオ音声符号化装置から伝送されたビットストリームを用いて処理を行なうとしたが、本発明はこれに限定されず、必要なパラメータやデータを含むビットストリームであれば、必ずしも本実施の形態におけるステレオ音声符号化装置からのビットストリームでなくても処理は可能である。
本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。また、本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、有線方式の通信システムにおいても利用可能である。
なお、本明細書では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化/復号に本発明を適用するような構成としても良い。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2007年4月20日出願の特願2007−111864の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係るステレオ音声符号化装置およびステレオ音声符号化方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。
Claims (6)
- 2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するモノラル信号生成手段と、
第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整手段と、
前記合成比率調整手段が調整した第1チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第1チャネル用合成信号を生成し、さらに、前記合成比率調整手段が調整した第2チャネル用合成比率と前記第1チャネル信号と前記第2チャネル信号とを用いて第2チャネル用合成信号を生成する適応合成手段と、
前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うチャネル間予測手段と、
を具備し、
前記合成比率調整手段は、
前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整する、
ステレオ音声符号化装置。 - 前記合成比率調整手段は、
前記モノラル信号と前記第1チャネル用合成信号との相関値である第1相関値が所定の閾値以上となるように前記第1チャネル用合成比率を調整し、前記モノラル信号と前記第2チャネル用合成信号との相関値である第2相関値が所定の閾値以上となるように前記第2チャネル用合成比率を調整する、
請求項1記載のステレオ音声符号化装置。 - 前記モノラル信号に対し線形予測分析を行って得られる第1線形予測係数を用いて、前記モノラル信号に対する第1線形予測残差信号を生成し、前記第1チャネル用合成信号に対し線形予測分析を行って得られる第2線形予測係数を用いて、前記第1チャネル用合成信号に対する第2線形予測残差信号を生成し、前記第2チャネル用合成信号に対し線形予測分析を行って得られる第3線形予測係数を用いて、前記第2チャネル用合成信号に対する第3線形予測残差信号を生成する線形予測分析手段、
をさらに具備し、
前記合成比率調整手段は、
前記第1線形予測残差信号と前記第2線形予測残差信号との相関値である第3相関値が所定の閾値以上となるように前記第1チャネル用合成比率を調整し、前記第1線形予測残差信号と前記第3線形予測残差信号との相関値である第4相関値が所定の閾値以上となるように前記第2チャネル用合成比率を調整する、
請求項1記載のステレオ音声符号化装置。 - 前記合成比率調整手段は、
前記第1チャネル用合成比率および第2チャネル用合成比率の初期値をそれぞれ設定し、前記第3相関値が所定の閾値以上となるまで前記第1チャネル用合成比率を減少することにより前記第1チャネル用合成比率を調整し、前記第4相関値が所定の閾値以上となるまで前記第2チャネル用合成比率を減少することにより前記第2チャネル用合成比率を調整する、
請求項3記載のステレオ音声符号化装置。 - 前記合成比率調整手段は、
過去フレームのチャネル間予測に用いられた前記第1チャネル用合成信号を生成する前記第1チャネル用合成比率に所定の値を加算し、加算結果を前記第1チャネル用合成比率の初期値とし、さらに、過去フレームのチャネル間予測に用いられた前記第2チャネル用合成信号を生成する前記第2チャネル用合成比率に所定の値を加算し、加算結果を前記第2チャネル用合成比率の初期値とする、
請求項1記載のステレオ音声符号化装置。 - 2つのチャネル信号からなるステレオ音声信号の第1チャネル信号と第2チャネル信号とを用いて得られる代表値をモノラル信号として生成するステップと、
第1チャネル用合成比率および第2チャネル用合成比率を調整する合成比率調整ステップと、
前記合成比率調整手段が調整した第1チャネル用合成比率および第2チャネル合成比率それぞれを用いて、前記第1チャネル信号と前記第2チャネル信号とを合成し第1チャネル用合成信号および第2チャネル合成信号それぞれを生成するステップと、
前記モノラル信号と前記第1チャネル用合成信号とを用いて第1チャネル用チャネル間予測を行い、さらに、前記モノラル信号と前記第2チャネル合成信号とを用いて第2チャネル用チャネル間予測を行うステップと、
を具備し、
前記合成比率調整ステップにおいては、
前記モノラル信号と前記第1チャネル用合成信号との相関に基づいて前記第1チャネル用合成比率を調整し、さらに前記モノラル信号と前記第2チャネル用合成信号との相関に基づいて前記第2チャネル用合成比率を調整する、
ステレオ音声符号化方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007111864 | 2007-04-20 | ||
JP2007111864 | 2007-04-20 | ||
PCT/JP2008/001031 WO2008132826A1 (ja) | 2007-04-20 | 2008-04-18 | ステレオ音声符号化装置およびステレオ音声符号化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2008132826A1 true JPWO2008132826A1 (ja) | 2010-07-22 |
Family
ID=39925298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009511677A Withdrawn JPWO2008132826A1 (ja) | 2007-04-20 | 2008-04-18 | ステレオ音声符号化装置およびステレオ音声符号化方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100121633A1 (ja) |
JP (1) | JPWO2008132826A1 (ja) |
WO (1) | WO2008132826A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008090970A1 (ja) * | 2007-01-26 | 2008-07-31 | Panasonic Corporation | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 |
EP2254110B1 (en) * | 2008-03-19 | 2014-04-30 | Panasonic Corporation | Stereo signal encoding device, stereo signal decoding device and methods for them |
WO2010140350A1 (ja) * | 2009-06-02 | 2010-12-09 | パナソニック株式会社 | ダウンミックス装置、符号化装置、及びこれらの方法 |
US8942989B2 (en) * | 2009-12-28 | 2015-01-27 | Panasonic Intellectual Property Corporation Of America | Speech coding of principal-component channels for deleting redundant inter-channel parameters |
EP3961623A1 (en) | 2015-09-25 | 2022-03-02 | VoiceAge Corporation | Method and system for decoding left and right channels of a stereo sound signal |
CN110709925B (zh) * | 2017-04-10 | 2023-09-29 | 诺基亚技术有限公司 | 用于音频编码或解码的方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0382300A (ja) * | 1989-08-25 | 1991-04-08 | Sharp Corp | ステレオ聴感補正回路 |
DE4320990B4 (de) * | 1993-06-05 | 2004-04-29 | Robert Bosch Gmbh | Verfahren zur Redundanzreduktion |
JPH0795170A (ja) * | 1993-09-20 | 1995-04-07 | Fujitsu Ten Ltd | ステレオ分離度の調整方法および装置 |
SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
JP2005533271A (ja) * | 2002-07-16 | 2005-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
KR101049751B1 (ko) * | 2003-02-11 | 2011-07-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
WO2007116809A1 (ja) * | 2006-03-31 | 2007-10-18 | Matsushita Electric Industrial Co., Ltd. | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
JP4999846B2 (ja) * | 2006-08-04 | 2012-08-15 | パナソニック株式会社 | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
-
2008
- 2008-04-18 US US12/596,489 patent/US20100121633A1/en not_active Abandoned
- 2008-04-18 JP JP2009511677A patent/JPWO2008132826A1/ja not_active Withdrawn
- 2008-04-18 WO PCT/JP2008/001031 patent/WO2008132826A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20100121633A1 (en) | 2010-05-13 |
WO2008132826A1 (ja) | 2008-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5171256B2 (ja) | ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法 | |
JP4934427B2 (ja) | 音声信号復号化装置及び音声信号符号化装置 | |
JP5243527B2 (ja) | 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム | |
US8817992B2 (en) | Multichannel audio coder and decoder | |
JP5413839B2 (ja) | 符号化装置および復号装置 | |
EP1801783B1 (en) | Scalable encoding device, scalable decoding device, and method thereof | |
US20080154583A1 (en) | Stereo Signal Generating Apparatus and Stereo Signal Generating Method | |
US8150702B2 (en) | Stereo audio encoding device, stereo audio decoding device, and method thereof | |
JP5153791B2 (ja) | ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法 | |
JP4555299B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
US8036390B2 (en) | Scalable encoding device and scalable encoding method | |
JPWO2007116809A1 (ja) | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 | |
US20120072207A1 (en) | Down-mixing device, encoder, and method therefor | |
US20100121632A1 (en) | Stereo audio encoding device, stereo audio decoding device, and their method | |
US20080162148A1 (en) | Scalable Encoding Apparatus And Scalable Encoding Method | |
JPWO2008132826A1 (ja) | ステレオ音声符号化装置およびステレオ音声符号化方法 | |
JP2007187749A (ja) | マルチチャンネル符号化における頭部伝達関数をサポートするための新装置 | |
JPWO2008090970A1 (ja) | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 | |
JP2006072269A (ja) | 音声符号化装置、通信端末装置、基地局装置および音声符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110404 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20120405 |