JP4887288B2 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
JP4887288B2
JP4887288B2 JP2007510437A JP2007510437A JP4887288B2 JP 4887288 B2 JP4887288 B2 JP 4887288B2 JP 2007510437 A JP2007510437 A JP 2007510437A JP 2007510437 A JP2007510437 A JP 2007510437A JP 4887288 B2 JP4887288 B2 JP 4887288B2
Authority
JP
Japan
Prior art keywords
amplitude ratio
quantization
delay difference
prediction parameter
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007510437A
Other languages
English (en)
Other versions
JPWO2006104017A1 (ja
Inventor
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2007510437A priority Critical patent/JP4887288B2/ja
Publication of JPWO2006104017A1 publication Critical patent/JPWO2006104017A1/ja
Application granted granted Critical
Publication of JP4887288B2 publication Critical patent/JP4887288B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオ音声のための音声符号化装置および音声符号化方法に関する。
移動体通信やIP通信での伝送帯域の広帯域化、サービスの多様化に伴い、音声通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したまま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。その場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるような、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声による音声通信を実現するためには、ステレオ音声の符号化が必須となる。
また、IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号化が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成をいう。
よって、ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、符号化データの一部を用いたモノラル信号の復号とを受信側において選択可能な、モノラル−ステレオ間でのスケーラブル構成(モノラル−ステレオ・スケーラブル構成)を有する符号化が望まれる。
このような、モノラル−ステレオ・スケーラブル構成を有する音声符号化方法としては、例えば、チャネル(以下、適宜「ch」と略す)間の信号の予測(第1ch信号から第2ch信号の予測、または、第2ch信号から第1ch信号の予測)を、チャネル相互間のピッチ予測により行う、すなわち、2チャネル間の相関を利用して符号化を行うものがある(非特許文献1参照)。
Ramprashad, S.A., "Stereophonic CELP coding using cross channel prediction", Proc. IEEE Workshop on Speech Coding, pp.136-138, Sep. 2000.
しかしながら、上記非特許文献1記載の音声符号化方法では、チャネル間の予測パラメータ(チャネル間のピッチ予測の遅延およびゲイン)はそれぞれ独立に符号化されるため、符号化効率が高くない。
本発明の目的は、効率よくステレオ音声を符号化することができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、第1信号と第2信号との間の遅延差および振幅比を予測パラメータとして求める予測パラメータ分析手段と、前記遅延差と前記振幅比との間の相関性に基づいて前記予測パラメータから量子化予測パラメータを得る量子化手段と、を具備する構成を採る。
本発明によれば、効率よくステレオ音声を符号化することができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
本実施の形態に係る音声符号化装置の構成を図1に示す。図1に示す音声符号化装置10は、第1ch符号化部11、第1ch復号部12、第2ch予測部13、減算器14、および、第2ch予測残差符号化部15を備える。なお、以下の説明では、フレーム単位での動作を前提にして説明する。
第1ch符号化部11は、入力ステレオ信号のうち第1ch音声信号s_ch1(n)(n=0〜NF-1;NFはフレーム長)に対する符号化を行い、第1ch音声信号の符号化データ(第1ch符号化データ)を第1ch復号部12に出力する。また、この第1ch符号化データは、第2ch予測パラメータ符号化データおよび第2ch符号化データと多重されて音声復号装置(図示せず)へ伝送される。
第1ch復号部12は、第1ch符号化データから第1ch復号信号を生成して第2ch予測部13に出力する。
第2ch予測部13は、第1ch復号信号と入力ステレオ信号のうちの第2ch音声信号s_ch2(n)(n=0〜NF-1;NFはフレーム長)とから第2ch予測パラメータを求め、この第2ch予測パラメータを符号化した第2ch予測パラメータ符号化データを出力する。この第2ch予測パラメータ符号化データは、他の符号化データと多重されて音声復号装置(図示せず)へ伝送される。また、第2ch予測部13は、第1ch復号信号と第2ch音声信号とから第2ch予測信号sp_ch2(n)を合成し、その第2ch予測信号を減算器14に出力する。第2ch予測部13の詳細については後述する。
減算器14は、第2ch音声信号s_ch2(n)と第2ch予測信号sp_ch2(n)との差、すなわち、第2ch音声信号に対する第2ch予測信号の残差成分の信号(第2ch予測残差信号)を求
め、第2ch予測残差符号化部15に出力する。
第2ch予測残差符号化部15は、第2ch予測残差信号を符号化して第2ch符号化データを出力する。この第2ch符号化データは他の符号化データと多重されて音声復号装置へ伝送される。
次いで、第2ch予測部13の詳細について説明する。図2に、第2ch予測部13の構成を示す。この図に示すように、第2ch予測部13は、予測パラメータ分析部21、予測パラメータ量子化部22、および、信号予測部23を備える。
第2ch予測部13では、ステレオ信号の各チャネル信号間の相関性に基づき、第1ch音声信号に対する第2ch音声信号の遅延差Dおよび振幅比gを基本とするパラメータを用いることで、第1ch音声信号から第2ch音声信号を予測する。
予測パラメータ分析部21は、第1ch復号信号と第2ch音声信号とから、第1ch音声信号に対する第2ch音声信号の遅延差Dおよび振幅比gをチャネル間予測パラメータとして求め、予測パラメータ量子化部22に出力する。
予測パラメータ量子化部22は、入力された予測パラメータ(遅延差D、振幅比g)を量子化し、量子化予測パラメータおよび第2ch予測パラメータ符号化データを出力する。量子化予測パラメータは信号予測部23に入力される。予測パラメータ量子化部22の詳細については後述する。
信号予測部23は、第1ch復号信号と量子化予測パラメータとを用いて第2ch信号の予測を行い、その予測信号を出力する。信号予測部23で予測される第2ch予測信号sp_ch2(n)(n=0〜NF-1;NFはフレーム長)は、第1ch復号信号sd_ch1(n)を用いて式(1)より表される。
Figure 0004887288
なお、予測パラメータ分析部21では、式(2)で表される歪みDist、すなわち、第2ch音声信号s_ch2(n)と第2ch予測信号sp_ch2(n)との歪みDistを最小とするように予測パラメータ(遅延差D、振幅比g)を求める。また、予測パラメータ分析部21は、第2ch音声信号と第1ch復号信号との間の相互相関を最大にするような遅延差Dや、フレーム単位の平均振幅の比gを求めて予測パラメータとしてもよい。
Figure 0004887288
次いで、予測パラメータ量子化部22の詳細について説明する。
予測パラメータ分析部21において得られた遅延差Dと振幅比gとの間には、信号の音源から受信地点までの空間的特性(距離等)に起因する関係性(相関性)がある。すなわち、遅延差D(>0)が大きい(正方向(遅れ方向)に大きい)ほど振幅比g(<1.0)は小さく、逆に、遅延差D(<0)が小さい(負方向(進み方向)に大きい)ほど振幅比g(>1.0)は大きくなる、という関係性がある。そこで、予測パラメータ量子化部22では、この関係性を利用して、チャネル間予測パラメータ(遅延差D、振幅比g)を効率的に符号化し、より少ない
量子化ビット数で同等の量子化歪みを実現する。
本実施の形態に係る予測パラメータ量子化部22の構成は図3<構成例1>または図5<構成例2>に示すようになる。
<構成例1>
構成例1(図3)では、遅延差Dと振幅比gを2次元ベクトルとして表し、その2次元ベクトルに対してベクトル量子化を行う。図4は、この2次元ベクトルを点(○)で表した符号ベクトルの特性図である。
図3において、歪み算出部31は、遅延差Dと振幅比gとからなる2次元ベクトル(D,g)で表された予測パラメータに対して、予測パラメータ符号帳33の各符号ベクトルとの間の歪みを算出する。
最小歪み探索部32は、すべての符号ベクトルのうち、歪みが最も小さい符号ベクトルを探索し、その探索結果を予測パラメータ符号帳33に送るとともに、その符号ベクトルに対応するインデクスを第2ch予測パラメータ符号化データとして出力する。
予測パラメータ符号帳33は、探索結果に基づいて、歪みが最も小さい符号ベクトルを量子化予測パラメータとして出力する。
ここで、予測パラメータ符号帳33の第k番目の符号ベクトルを(Dc(k),gc(k))(k=0〜Ncb-1,Ncb:符号帳サイズ)とすると、歪み算出部31で算出される、第k番目の符号ベクトルに対する歪みDst(k)は式(3)により表される。式(3)において、wdおよびwgは、歪み算出時の遅延差に対する量子化歪みと、振幅比に対する量子化歪みとの間の重みを調整する重み定数である。
Figure 0004887288
予測パラメータ符号帳33は、予め、遅延差Dと振幅比gとの対応関係を示す複数のデータ(学習データ)を学習用のステレオ音声信号から取得しておき、その対応関係から学習により予め用意しておく。予測パラメータである遅延差と振幅比との間には上記の関係性があるため、学習用データはその関係性に従って取得される。よって、学習から得られる予測パラメータ符号帳33は、図4に示すように、遅延差Dと振幅比gが、(D,g)=(0, 1.0)となる点を中心に、負の比例関係にある符号ベクトルの集合の密度が高く、それ以外は疎になると考えられる。図4に示すような特性を有する予測パラメータ符号帳を用いることで、遅延差と振幅比との対応関係を表す予測パラメータの中で、発生頻度の高いものの量子化誤差を小さくでき、その結果、量子化効率を向上することができる。
<構成例2>
構成例2(図5)では、遅延差Dから振幅比gを推定する関数を予め定め、遅延差Dを量子化後、その量子化値からその関数を用いて推定した振幅比に対する予測残差を量子化する。
図5において、遅延差量子化部51は、予測パラメータのうちの遅延差Dに対して量子化を行い、この量子化遅延差Dqを振幅比推定部52に出力するとともに、量子化予測パラメータとして出力する。また、遅延差量子化部51は、遅延差Dの量子化により得られる量子化遅延差インデクスを第2ch予測パラメータ符号化データとして出力する。
振幅比推定部52は、量子化遅延差Dqから振幅比の推定値(推定振幅比)gpを求めて、振幅比推定残差量子化部53に出力する。振幅比の推定には、予め用意された、量子化遅延差から振幅比を推定するための関数を用いる。この関数は、量子化遅延差Dqと推定振幅比gpとの対応関係を示す複数のデータを学習用のステレオ音声信号から求めておき、その対応関係から学習により予め用意しておく。
振幅比推定残差量子化部53は、振幅比gの推定振幅比gpに対する推定残差δgを式(4)に従って求める。
Figure 0004887288
そして、振幅比推定残差量子化部53は、式(4)で得られた推定残差δgに対して量子化を行い、量子化推定残差を量子化予測パラメータとして出力する。また、振幅比推定残差量子化部53は、推定残差δgの量子化により得られる量子化推定残差インデクスを第2ch予測パラメータ符号化データとして出力する。
図6に、振幅比推定部52で用いられる関数の一例を示す。入力される予測パラメータ(D,g)は、2次元ベクトルとして図6の座標平面上の点で示される。図6に示すように、遅延差から振幅比を推定するための関数61は、(D,g)=(0,1.0)またはその付近を通るような負の比例関係にある関数である。そして、振幅比推定部52では、この関数を用いて、量子化遅延差Dqから推定振幅比gpを求める。また、振幅比推定残差量子化部53では、入力予測パラメータの振幅比gの推定振幅比gpに対する推定残差δgを求め、この推定残差δgを量子化する。このようにして推定残差を量子化することで、振幅比を直接量子化するよりも量子化誤差を小さくすることができ、その結果、量子化効率を向上することができる。
なお、上記説明では、量子化遅延差から振幅比を推定するための関数を用いて量子化遅延差Dqから推定振幅比gpを求め、その推定振幅比gpに対する入力振幅比gの推定残差δgを量子化する構成について説明したが、入力振幅比gを量子化し、量子化振幅比から遅延差を推定するための関数を用いて量子化振幅比gqから推定遅延差Dpを求め、その推定遅延差Dpに対する入力遅延差Dの推定残差δDを量子化する構成としてもよい。
(実施の形態2)
本実施の形態に係る音声符号化装置は、実施の形態1と、予測パラメータ量子化部22(図2、3、5)の構成が異なる。本実施の形態における予測パラメータの量子化では、遅延差および振幅比の量子化において、双方のパラメータの量子化誤差が聴感的に相互に打ち消しあう方向に生じるような量子化を行う。すなわち、遅延差の量子化誤差が正の方向に生じる場合は振幅比の量子化誤差がより大きくなるように量子化し、逆に、遅延差の量子化誤差が負の方向に生じる場合は振幅比の量子化誤差がより小さくなるように量子化する。
ここで、人間の聴覚特性として、同じステレオ音の定位感を得るように、遅延差と振幅比を相互に調整することが可能である。すなわち、遅延差が実際より大きくなった場合には、振幅比を大きくすれば、同等の定位感が得られる。この聴覚特性に基づき、聴感的にステレオの定位感が変わらないように、遅延差の量子化誤差と振幅比の量子化誤差とを相互に調整して遅延差および振幅比を量子化することで、予測パラメータをより効率よく符号化することができる。つまり、同等の音質をより低符号化ビットレートで、または、同一の符号化ビットレートでより高音質を実現することができる。
本実施の形態に係る予測パラメータ量子化部22の構成は図7<構成例3>または図9<構成例4>に示すようになる。
<構成例3>
構成例3(図7)は、歪みの算出において構成例1(図3)と異なる。なお、図7においては、図3と同一の構成部分には同一符号を付し説明を省略する。
図7において、歪み算出部71は、遅延差Dと振幅比gからなる2次元ベクトル(D,g)で表された予測パラメータに対して、予測パラメータ符号帳33の各符号ベクトルとの間の歪みを算出する。
予測パラメータ符号帳33の第k番目の符号ベクトル(Dc(k),gc(k))(k=0〜Ncb,Ncb:符号帳サイズ)とすると、歪み算出部71は、入力される予測パラメータの2次元ベクトル(D,g)を、各符号ベクトル(Dc(k),gc(k))に最も近い聴感的に等価な点(Dc’(k),gc’(k))に移動をさせた後、式(5)に従って歪みDst(k)を算出する。なお、式(5)において、wdおよびwgは、歪み算出時の遅延差に対する量子化歪みと、振幅比に対する量子化歪みとの間の重みを調整する重み定数である。
Figure 0004887288
ここで、各符号ベクトル(Dc(k),gc(k))に最も近い聴感的に等価な点とは、図8に示すように、各符号ベクトルから、入力予測パラメータベクトル(D,g)とステレオ定位感が聴感的に等価な関数81へ垂線を下ろした点に相当する。この関数81は、遅延差Dと振幅比gとが正の方向に比例する関数であり、遅延差が大きいほど振幅比も大きく、逆に、遅延差が小さいほど振幅比も小さくすることで聴感的に等価な定位感を得られるという聴感的特性に基づくものである。
なお、入力予測パラメータベクトルを(D,g)を、関数81上において、各符号ベクトル(Dc(k),gc(k))に最も近い(すなわち、垂線上)の聴感的に等価な点(Dc’(k),gc’(k))へ移動させる際には、所定以上大きく離れた点への移動に対しては歪みを大きくしてペナルティを課す。
このようにして求めた歪みを用いてベクトル量子化を行うと、例えば図8においては、入力予測パラメータベクトルからの距離が近い符号ベクトルA(量子化歪みA)や符号ベクトルB(量子化歪みB)ではなく、入力予測パラメータベクトルにステレオ定位感が聴感的により近い符号ベクトルC(量子化歪みC)が量子化値となり、より聴感的な歪みの小さい量子化を行うことができる。
<構成例4>
構成例4(図9)は、遅延差の量子化誤差を踏まえて聴感的に等価な値へと補正した振幅比(補正振幅比)に対する推定残差を量子化する点において、構成例2(図5)と異なる。なお、図9においては、図5と同一の構成部分には同一符号を付し説明を省略する。
図9において、遅延差量子化部51は、量子化遅延差Dqを振幅比補正部91にも出力する。
振幅比補正部91は、遅延差の量子化誤差を踏まえて振幅比gを聴感的に等価な値へと補正し、補正振幅比g’を得る。この補正振幅比g’は、振幅比推定残差量子化部92に入
力される。
振幅比推定残差量子化部92は、補正振幅比g’の推定振幅比gpに対する推定残差δgを式(6)に従って求める。
Figure 0004887288
そして、振幅比推定残差量子化部92は、式(6)で得られた推定残差δgに対して量子化を行い、量子化推定残差を量子化予測パラメータとして出力する。また、振幅比推定残差量子化部92は、推定残差δgの量子化により得られる量子化推定残差インデクスを第2ch予測パラメータ符号化データとして出力する。
図10に、振幅比補正部91および振幅比推定部52で用いられる関数の一例を示す。振幅比補正部91で用いる関数81は構成例3において用いた関数81と同一の関数であり、振幅比推定部52で用いる関数61は構成例2において用いた関数61と同一の関数である。
関数81は、上記のように、遅延差Dと振幅比gとが正の方向に比例する関数であり、振幅比補正部91では、この関数81を用いて、量子化遅延差Dqから、遅延差の量子化誤差を踏まえた、振幅比gと聴感的に等価な補正振幅比g’を得る。また、関数61は、上記のように、(D,g)=(0,1.0)またはその付近を通るような負の比例関係にある関数であり、振幅比推定部52では、この関数61を用いて、量子化遅延差Dqから推定振幅比gpを求める。そして、振幅比推定残差量子化部92では、補正振幅比g’の推定振幅比gpに対する推定残差δgを求め、この推定残差δgを量子化する。
このように、遅延差の量子化誤差を踏まえて聴感的に等価な値へと補正した振幅比(補正振幅比)から推定残差を求め、その推定残差を量子化することで、聴感的に歪みが小さく、かつ、量子化誤差の小さい量子化を行うことができる。
<構成例5>
遅延差Dと振幅比gとをそれぞれ独立に量子化する場合においても、本実施の形態のように、遅延差と振幅比に関する聴感的特性を利用するようにしてもよい。この場合の予測パラメータ量子化部22の構成は、図11に示すようになる。なお、図11において、構成例4(図9)と同一の構成部分には同一符号を付す。
図11において、振幅比補正部91は、構成例4同様、遅延差の量子化誤差を踏まえて振幅比gを聴感的に等価な値へと補正し、補正振幅比g’を得る。この補正振幅比g’は、振幅比量子化部1101に入力される。
振幅比量子化部1101は、補正振幅比g’に対して量子化を行い、量子化振幅比を量子化予測パラメータとして出力する。また、振幅比量子化部1101は、補正振幅比g’の量子化により得られる量子化振幅比インデクスを第2ch予測パラメータ符号化データとして出力する。
なお、上記各実施の形態では、予測パラメータ(遅延差Dおよび振幅比g)をそれぞれスカラー値(1次元の値)として説明したが、複数の時間単位(フレーム)に渡って得られた複数の予測パラメータをまとめて2次元以上のベクトルとして上記同様の量子化を行ってもよい。
また、上記各実施の形態を、モノラル−ステレオ・スケーラブル構成を有する音声符号化装置に適用することもできる。この場合、モノラルコアレイヤにおいて、入力ステレオ信号(第1chおよび第2ch音声信号)からモノラル信号を生成して符号化し、ステレオ拡張レイヤにおいて、モノラル復号信号から、チャネル間予測により第1ch(または第2ch)音声信号を予測し、この予測信号と第1ch(または第2ch)音声信号との予測残差信号を符号化する。さらに、モノラルコアレイヤおよびステレオ拡張レイヤの符号化にCELP符号化を用い、ステレオ拡張レイヤにて、モノラルコアレイヤで得られたモノラル駆動音源信号に対するチャネル間予測を行い、予測残差をCELP音源符号化により符号化するようにしてもよい。なお、スケーラブル構成の場合は、チャネル間予測パラメータは、モノラル信号からの第1ch(または第2ch)音声信号の予測に対するパラメータとなる。
また、上記各実施の形態を、モノラル−ステレオ・スケーラブル構成を有する音声符号化装置に適用する場合、モノラル信号に対する第1chおよび第2ch音声信号の遅延差Dm1,Dm2、振幅比gm1,gm2を2チャネル信号分まとめて、実施の形態2と同様にして量子化するようにしてもよい。この場合、各チャネルの遅延差間(Dm1とDm2との間)および振幅比間(gm1とgm2との間)にも相関性があり、その相関性を利用することで、モノラル−ステレオ・スケーラブル構成において予測パラメータの符号化効率を向上することができる。
また、上記各実施の形態に係る音声符号化装置を、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線通信装置に搭載することも可能である。
また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
本明細書は、2005年3月25日出願の特願2005−088808に基づくものである。この内容はすべてここに含めておく。
本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等における通信装置の用途に適用できる。
実施の形態1に係る音声符号化装置の構成を示すブロック図 実施の形態1に係る第2ch予測部の構成を示すブロック図 実施の形態1に係る予測パラメータ量子化部の構成を示すブロック図(構成例1) 実施の形態1に係る予測パラメータ符号帳の一例を示す特性図 実施の形態1に係る予測パラメータ量子化部の構成を示すブロック図(構成例2) 実施の形態1に係る振幅比推定部で用いられる関数の一例を示す特性図 実施の形態2に係る予測パラメータ量子化部の構成を示すブロック図(構成例3) 実施の形態2に係る歪み算出部で用いられる関数の一例を示す特性図 実施の形態2に係る予測パラメータ量子化部の構成を示すブロック図(構成例4) 実施の形態2に係る振幅比補正部および振幅比推定部で用いられる関数の一例を示す特性図 実施の形態2に係る予測パラメータ量子化部の構成を示すブロック図(構成例5)

Claims (8)

  1. 第1信号と第2信号との間の遅延差および振幅比を予測パラメータとして求める予測パラメータ分析手段と、
    前記遅延差と前記振幅比との間の相関性に基づいて前記予測パラメータから量子化予測パラメータを得る量子化手段と、
    を具備する音声符号化装置。
  2. 前記量子化手段は、前記振幅比の、前記遅延差から推定される振幅比に対する残差を量子化して前記量子化予測パラメータを得る、
    請求項1記載の音声符号化装置。
  3. 前記量子化手段は、前記遅延差の、前記振幅比から推定される遅延差に対する残差を量子化して前記量子化予測パラメータを得る、
    請求項1記載の音声符号化装置。
  4. 前記量子化手段は、前記遅延差の量子化誤差と前記振幅比の量子化誤差とが聴感的に相互に打ち消しあう方向に生じる量子化を行って前記量子化予測パラメータを得る、
    請求項1記載の音声符号化装置。
  5. 前記量子化手段は、前記遅延差と前記振幅比とからなる2次元ベクトルを用いて前記量子化予測パラメータを得る、
    請求項1記載の音声符号化装置。
  6. 請求項1記載の音声符号化装置を具備する無線通信移動局装置。
  7. 請求項1記載の音声符号化装置を具備する無線通信基地局装置。
  8. 第1信号と第2信号との間の遅延差および振幅比を予測パラメータとして求め、
    前記遅延差と前記振幅比との間の相関性に基づいて前記予測パラメータから量子化予測パラメータを得る、
    音声符号化方法。
JP2007510437A 2005-03-25 2006-03-23 音声符号化装置および音声符号化方法 Expired - Fee Related JP4887288B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007510437A JP4887288B2 (ja) 2005-03-25 2006-03-23 音声符号化装置および音声符号化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005088808 2005-03-25
JP2005088808 2005-03-25
JP2007510437A JP4887288B2 (ja) 2005-03-25 2006-03-23 音声符号化装置および音声符号化方法
PCT/JP2006/305871 WO2006104017A1 (ja) 2005-03-25 2006-03-23 音声符号化装置および音声符号化方法

Publications (2)

Publication Number Publication Date
JPWO2006104017A1 JPWO2006104017A1 (ja) 2008-09-04
JP4887288B2 true JP4887288B2 (ja) 2012-02-29

Family

ID=37053274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007510437A Expired - Fee Related JP4887288B2 (ja) 2005-03-25 2006-03-23 音声符号化装置および音声符号化方法

Country Status (6)

Country Link
US (1) US8768691B2 (ja)
EP (1) EP1858006B1 (ja)
JP (1) JP4887288B2 (ja)
CN (1) CN101147191B (ja)
ES (1) ES2623551T3 (ja)
WO (1) WO2006104017A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2007332508B2 (en) * 2006-12-13 2012-08-16 Iii Holdings 12, Llc Encoding device, decoding device, and method thereof
US20100100372A1 (en) * 2007-01-26 2010-04-22 Panasonic Corporation Stereo encoding device, stereo decoding device, and their method
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
EP2133872B1 (en) 2007-03-30 2012-02-29 Panasonic Corporation Encoding device and encoding method
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
EP3779979B1 (en) * 2010-04-13 2023-08-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoding method for processing stereo audio signals using a variable prediction direction
JP5799824B2 (ja) * 2012-01-18 2015-10-28 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR102169435B1 (ko) * 2016-03-21 2020-10-23 후아웨이 테크놀러지 컴퍼니 리미티드 가중된 행렬 계수의 적응형 양자화
CN107358959B (zh) * 2016-05-10 2021-10-26 华为技术有限公司 多声道信号的编码方法和编码器
US11176954B2 (en) * 2017-04-10 2021-11-16 Nokia Technologies Oy Encoding and decoding of multichannel or stereo audio signals

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004509365A (ja) * 2000-09-15 2004-03-25 テレフオンアクチーボラゲツト エル エム エリクソン 複数チャネル信号の符号化及び復号化

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52116103A (en) * 1976-03-26 1977-09-29 Kokusai Denshin Denwa Co Ltd Multistage selection dpcm system
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3180762B2 (ja) * 1998-05-11 2001-06-25 日本電気株式会社 音声符号化装置及び音声復号化装置
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
JP3898184B2 (ja) * 2001-12-25 2007-03-28 株式会社エヌ・ティ・ティ・ドコモ 信号符号化装置、信号符号化方法、プログラム
ES2300567T3 (es) 2002-04-22 2008-06-16 Koninklijke Philips Electronics N.V. Representacion parametrica de audio espacial.
BRPI0304542B1 (pt) * 2002-04-22 2018-05-08 Koninklijke Philips Nv “Método e codificador para codificar um sinal de áudio de multicanal, sinal de áudio multicanal codificado, e, método e decodificador para decodificar um sinal de áudio de multicanal codificado”
US7542896B2 (en) * 2002-07-16 2009-06-02 Koninklijke Philips Electronics N.V. Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
JP4431568B2 (ja) * 2003-02-11 2010-03-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声符号化
CN1898724A (zh) * 2003-12-26 2007-01-17 松下电器产业株式会社 语音/乐音编码设备及语音/乐音编码方法
ATE395686T1 (de) * 2004-04-05 2008-05-15 Koninkl Philips Electronics Nv Mehrkanal-codierer
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
CN1981326B (zh) * 2004-07-02 2011-05-04 松下电器产业株式会社 音频信号解码装置和方法及音频信号编码装置和方法
JPWO2006004048A1 (ja) * 2004-07-06 2008-04-24 松下電器産業株式会社 オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
KR100672355B1 (ko) * 2004-07-16 2007-01-24 엘지전자 주식회사 음성 코딩/디코딩 방법 및 그를 위한 장치
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
KR20070085532A (ko) * 2004-11-30 2007-08-27 마츠시타 덴끼 산교 가부시키가이샤 스테레오 부호화 장치, 스테레오 복호 장치 및 그 방법
EP1821287B1 (en) * 2004-12-28 2009-11-11 Panasonic Corporation Audio encoding device and audio encoding method
WO2006075975A1 (en) * 2005-01-11 2006-07-20 Agency For Science, Technology And Research Encoder, decoder, method for encoding/deconding, computer readable media and computer program elements
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
BRPI0605857A (pt) * 2005-04-19 2007-12-18 Coding Tech Ab quantização dependente de energia para a codificação eficiente de parámetros de áudio espacial

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004509365A (ja) * 2000-09-15 2004-03-25 テレフオンアクチーボラゲツト エル エム エリクソン 複数チャネル信号の符号化及び復号化

Also Published As

Publication number Publication date
US8768691B2 (en) 2014-07-01
WO2006104017A1 (ja) 2006-10-05
EP1858006B1 (en) 2017-01-25
CN101147191A (zh) 2008-03-19
JPWO2006104017A1 (ja) 2008-09-04
CN101147191B (zh) 2011-07-13
US20090055172A1 (en) 2009-02-26
EP1858006A4 (en) 2011-01-26
ES2623551T3 (es) 2017-07-11
EP1858006A1 (en) 2007-11-21

Similar Documents

Publication Publication Date Title
JP4887288B2 (ja) 音声符号化装置および音声符号化方法
JP5046653B2 (ja) 音声符号化装置および音声符号化方法
US7945447B2 (en) Sound coding device and sound coding method
JP4850827B2 (ja) 音声符号化装置および音声符号化方法
JP4977472B2 (ja) スケーラブル復号化装置
JP4907522B2 (ja) 音声符号化装置および音声符号化方法
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
JP5153791B2 (ja) ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2007116809A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JPWO2006080358A1 (ja) 音声符号化装置および音声符号化方法
JPWO2006070760A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2008132826A1 (ja) ステレオ音声符号化装置およびステレオ音声符号化方法
JPWO2008090970A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111212

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4887288

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees