JP3095133B2 - 音響信号符号化方法 - Google Patents
音響信号符号化方法Info
- Publication number
- JP3095133B2 JP3095133B2 JP09040404A JP4040497A JP3095133B2 JP 3095133 B2 JP3095133 B2 JP 3095133B2 JP 09040404 A JP09040404 A JP 09040404A JP 4040497 A JP4040497 A JP 4040497A JP 3095133 B2 JP3095133 B2 JP 3095133B2
- Authority
- JP
- Japan
- Prior art keywords
- filter
- vector
- codebook
- input
- fixed codebook
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
の音響信号の、スペクトル包絡特性を表すフィルタを音
源ベクトルで駆動して音響信号を合成する予測符号化に
より、音響信号の信号系列を少ない情報量でディジタル
符号化する高能率音声符号化方法に関する。
効率的に利用したり、音声または音楽蓄積サービス等で
通信回線や記憶媒体を効率的に利用するために、高能率
音声符号化方法が用いられる。現在、音声を高能率に符
号化する方法として、原音声をフレーム(またはサブフ
レーム)と呼ばれる5〜50ms程度の一定間隔の区間
に分割し、その1フレームの音声を周波数スペクトルの
包絡特性を表す線形フィルタの特性と、そのフィルタを
駆動するための駆動音源信号との2つの情報に分離し、
それぞれを符号化する手法が提案されている。この手法
において、駆動音源信号を符号化する方法として、音声
のピッチ周期(基本周波数)に対応すると考えられる周
期成分と、それ以外の成分に分離して符号化する方法が
知られている。この駆動音源情報の符号化法の例とし
て、符号駆動線形予測符号化(Code-Excited Linear Pr
ediction: CELP)がある。上記技術の詳細について
は、文献 M.R. Schroeder and B.S. Atal,“Code-Excit
ed Linear Prediction(CELP):High Quality Spe
ech at Very Low Bit Rates ”,IEEE Proc.ICA
SSP-85, pp.937-940, 1985に記載されている。
力端子1−0に入力された音声xは、線形予測分析部
1−1において、入力音声の周波数スペクトル包絡特性
を表す線形予測パラメータaが計算される。得られた
線形予測パラメータaは線形予測パラメータ符号化部
1−2において、符号化されて線形予測パラメータ復号
部1−3に送られる。また、歪み計算に聴覚特性を考慮
するなど、入力音声のスペクトル情報を利用して歪み計
算を行う場合には、線形予測パラメータaは歪み計算
部1−6へも送られる。線形予測パラメータ復号部1−
3では、受け取った符号から合成フィルタ係数a^を
再生し、合成フィルタ1−5に送る。歪み計算に聴覚特
性を考慮する場合に、歪み計算部1−6において量子化
前の線形予測パラメータaを用いる代わりに、上記復
号された線形予測パラメータa^を歪み計算に使用す
ることもある。なお、線形予測分析の詳細および線形予
測パラメータの符号化例については、例えば古井貞煕著
“ディジタル音声処理”(東海大学出版会)に記載され
ている。ここで、線形予測分析部1−1、線形予測パラ
メータ符号化部1−2、線形予測パラメータ復号部1−
3および合成フィルタ1−5は非線形なものに置き換え
てもよい。
レーム分の長さの駆動音源ベクトル候補cを生成し、
合成フィルタ1−5に送る。図9に駆動音源ベクトル生
成部1−4の構成例を示す。適応符号帳2−1からは、
バッファに記憶された直前の過去の駆動音源ベクトル
(既に量子化された直前の1〜数フレーム分の駆動音源
ベクトル)c(t−1)を、ある周期に相当する長さ
で切り出し、その切り出したベクトルをフレームの長さ
になるまで繰り返すことによって、音声の周期成分に対
応する時系列ベクトルの候補va が出力される。上記
「ある周期」とは、歪み計算部1−6における歪みdが
小さくなるような周期が選択されるが、選択された周期
は、一般には音声のピッチ周期に相当することが多い。
固定符号帳2−2からは、音声の非周期成分に対応する
1フレーム分の長さの時系列符号ベクトルの候補vr
が出力される。固定符号帳2−2には入力音声とは独立
に符号化のためのビット数に応じてあらかじめ指定され
た数の候補ベクトルが記憶されている。適応符号帳2−
1および固定符号帳2−2から出力された時系列ベクト
ルの候補は、乗算部2−4,2−5において、それぞれ
重み符号帳2−3において作成された重みga , gr が
乗算され、これら乗算結果は加算部2−6において加算
され、駆動音源ベクトルの候補cとなる。図9の構成
例において、適応符号帳2−1を用いないで、固定符号
帳2−2のみの構成としてもよく、子音部や背景雑音な
どのピッチ周期性の少ない信号を符号化するときには、
ビットを節約するために、適応符号帳2−1を用いない
構成にすることも多い。
は、線形予測パラメータ復号部1−3の出力をフィルタ
の係数とする線形フィルタで、駆動音源ベクトル候補
cを入力として再生音声の候補yを出力する。合成
フィルタ1−5の次数すなわち線形予測分析の次数は、
一般に10〜16次程度が用いられることが多い。な
お、既に述べたように、合成フィルタ1−5は非線形な
フィルタでもよい。
5の出力である再生音声の候補yと、入力音声xと
の歪みdを計算する。この歪みの計算は、例えば聴覚重
み付きなど、合成フィルタの係数a^または量子化し
ていない線形予測係数aを考慮にいれて行なうことが
多い。図11に、聴覚重みづきを考慮して歪みを計算す
る構成例を示した。聴覚重みづきは、量子化していない
線形予測パラメータaもしくは量子化された合成フィ
ルタ係数a^を用いた、聴覚重みフィルタの形で構成
される。合成フィルタ4−1から出力される再生音声候
補yは、聴覚重みフィルタ4−2を通され、これは、
同じく聴覚重みフィルタ4−3に通された入力音声との
間で、歪みdが計算される。ここで、聴覚重みフィルタ
4−2,4−3は通常同一のフィルタ係数を用いるた
め、聴覚重みフィルタ4−2,4−3は、距離計算部4
−4の後に1つのフィルタとして入れても等価である
が、処理量の点から、図11に示されるように、距離計
算部4−4の手前で2ケ所に分けて入れることが多い。
べると入力時系列音声ベクトルxは聴覚重みフィルタ
4−3を通り、ターゲット音声xw となって、距離計
算部4−4に送られる。一方、駆動音源ベクトル候補
cは、合成フィルタ4−1と聴覚重みフィルタ4−2
を通り、聴覚重み付き再生音声候補ベクトルyw とな
って、距離計算部4−4に送られる。距離計算部4−4
では、ターゲット音声ベクトルxw と再生音声候補ベ
クトルyw の間の距離を測定する。このときの距離尺
度には例えば、 d=‖xw −yw ‖2 (1) といった距離尺度を用いればよい。上記歪み尺度を最小
にするような駆動音源ベクトルが選択される。図9に示
したような駆動音源ベクトル生成の構成を用いる場合に
は、周期符号、固定符号、重み符号が決定される。な
お、聴覚重みフィルタ4−2,4−3は、人間の聴覚特
性を利用して再生音声の雑音感を低減するような歪み計
算をするためのフィルタで、必ずしも用いる必要はな
い。
は、入力音声信号そのままの場合もあるが、一般には、
前サブフレームからの影響を差し引いた、時系列信号で
あることが多い。また、図9に示したような駆動音源ベ
クトル生成の構成を用いる場合に、周期符号、固定符
号、重み符号のすべての可能な組み合わせの中から、最
適な組み合わせを1つ選択することは演算処理量の点か
ら難しく、例えば周期符号、固定符号、重み符号の順に
順次決定するか、途中で適宜候補を絞りながら順次探索
し、最後に準最適な組み合わせに決定することが多い。
このように順次決定または順次候補を残しながら探索す
る場合には、先に選択された符号ベクトル(例えば適応
符号ベクトル)に起因する合成成分を入力音声から差し
引き、駆動音源ベクトル候補cには、これから決定し
たいベクトル成分のみ(例えば固定符号ベクトルのみ)
を入力して歪み計算をする場合も多い。
各再生音声候補yと入力音声xとの歪みdが最小と
なるような駆動音源符号を選択し、そのフレームにおけ
る駆動音源ベクトルを決定する。なお、図9に示される
適応符号帳2−1、固定符号帳2−2、重み符号帳2−
3よりなる構成とする場合には、周期符号、固定符号お
よび重み符号を選択し、これらを駆動音源符号とする。
た駆動音源符号(周期符号、雑音符号、重み符号)と、
線形予測パラメータ符号化部1−2の出力である線形予
測パラメータ符号は、符号送出部1−9に送られ、利用
の形態に応じて記憶装置に記憶されるか、または通信路
を介して受信側へ送られる。図10に、上記符号化方法
に対応する復号方法の構成例を示した。伝送路または記
憶媒体から入力端子3−0に受信された符号のうち、線
形予測パラメータ符号は線形予測パラメータ復号部3−
2において合成フィルタ係数に復号され、合成フィルタ
3−4および、必要に応じて後処理部3−5に送られ
る。駆動音源符号は、駆動音源ベクトル生成部3−3に
送られ、符号に対応する音源ベクトルが生成される。な
お、駆動音源ベクトル生成部3−3の構成は、図8に示
された符号化方法の駆動音源ベクトル生成部1−4に対
応する構成となる。合成フィルタ3−4は、駆動音源ベ
クトルを入力として、音声を再生する。後処理部3−5
は、再生された音声の雑音感を聴覚的に低下させるよう
な処理(ポストフィルタリングとも呼ばれる)を行う
が、後処理部3−5は処理量削減等の関係から用いられ
ないことも多い。
問題となるのは、駆動音源ベクトル候補の選択をするた
めの歪み計算に、非常に多くの演算処理が必要になるこ
とである。この問題に対して、Algebraic Code-Excited
Linear Prediction(ACELP)という方式が提案さ
れている。この方式は、固定符号帳を、フレーム長のベ
クトルパターンとして蓄えるのではなく、高さが1のパ
ルスを、フレーム内に数本、例えば、40サンプルのフ
レームまたはサブフレームに対して、4本、適当な位置
に立てることによって、固定符号ベクトルとする方式
で、この駆動音源方式の採用と、歪み計算において演算
順序を工夫することによって、従来の方式に比べて演算
処理を大幅に減らすことができる。なお、ACELP方
式の詳細は、例えば、文献,R. Salami, C. Laflamme,
and J-P. Adoul, “ 8 kbit/s ACELP Coding of
Speech with 10 ms Speech-Frame: a Candidate for C
CITTStandardization ”,IEEE Proc. ICASSP-
94, pp.II-97に記載されている。また、同様の処理概念
にもとづき、より高品質かつより低演算量の方法とし
て、この発明者等が既に出願した「音響信号符号化方法
及び音響信号復号化方法」(特願平7−150550)
がある。この方式では、固定符号ベクトルとして、高さ
が1のパルスのかわりに、隣接する2〜数サンプルを単
位とし、高さ情報を持つパルスパタンをフレーム内に配
置する手法を用いることによって、より低演算量と高品
質を両立している。
歪み計算に合成フィルタまたは聴覚重みづきフィルタ、
またはそれらを合わせたフィルタを、インパルス応答ま
たはFIR型のフィルタで表現することが多いが、フレ
ームまたはサブフレームが長くなると、IIR型フィル
タを用いる場合と等価な結果を得るためのFIRフィル
タのタップ数が長くなり、演算量が従来方式に比べて逆
に増加してしまうばかりでなく、歪み計算において計算
の途中結果を格納するために、著しく大量のメモリが必
要になるなどの問題がある。したがって、上記方法をそ
のまま、一般にサブフレームを長くする低ビットレート
音声符号化に利用することは難しい。
トル候補cを合成フィルタ4−1と聴覚重みづきフィ
ルタ4−2に通す操作を、高速に実行するためには、こ
れらの2つのフィルタを合わせて、等価なフィルタ特性
を持つ1つの聴覚重み付き合成フィルタとするとよい。
等価な1つのフィルタとするには、例えば合成フィルタ
4−1の入力から聴覚重みフィルタ4−2の出力までの
インパルス応答をフィルタ係数とすFIRフィルタで表
現することができる。
する構成において、更に高速な歪み計算を実現する構成
である。例えば、FIRフィルタ表現された聴覚重み付
き合成しフィルタを、有限タップで打ち切ったり、短い
タップ数のARフィルタで近似したりして、あるいはF
IRフィルタのタップ数を、IIRフィルタの場合と等
価な結果を得るのに必要なタップ数よりも減らすなどの
方法による厳密にはフィルタ特性の一致しない聴覚重み
付き合成近似フィルタ5−2で代用する。これによって
合成歪み計算における演算処理量およびメモリ量を減ら
すことができる。しかしながら、図12の構成を用いた
場合、近似フィルタ5−2のフィルタ特性と、元の合成
フィルタ4−1および聴覚重み付きフィルタ4−2の特
性との差が大きくなると、近似誤差によって適当な駆動
音源符号が選択されなくなり、再生音声の著しい品質劣
化につながるため、事実上、サブフレームを長くとるこ
と、すなわちビットレートを低くすることは不可能であ
った。
つ安価なプロセッサで許容される範囲内の少ないメモリ
量、少ない演算量で、高品質な再生音声が得られるよう
な、音声または音楽などの音響信号をディジタル符号化
する方法を提供することにある。
合成フィルタのタップを途中で打ち切るなどの高速に歪
み計算ができるように簡略化した近似フィルタを合成歪
み計算に用い、この近似フィルタで表現したことにもと
づき生じる近似誤差を、入力音声に付加し、これを符号
帳探索時のターゲットベクトルとする。
において、相殺し、サブフレームの長い場合でも、非常
に少ないメモリ量、処理量で、高品質な低ビットレート
符号化方法を実現する。
成を図1に示す。入力端子6−0よりの入力音声x
は、量子化された(復号された)合成フィルタ係数a
^による合成フィルタの逆フィルタ(合成逆フィルタ)
6−3を通り、理想の(量子化しない)駆動音源ベクト
ルrに変換される。rは、図11において駆動音源
ベクトル候補cを入力とする合成フィルタ4−1に通
したときに、入力音声xとの歪みがゼロになる理想の
駆動音源ベクトルである。理想駆動音源ベクトルr
は、聴覚重み付き合成近似フィルタ5−2と同じ特性の
聴覚重み付き合成近似フィルタ6−4を通って変形ター
ゲット音声ベクトルx′w となる。この時、聴覚重み
付き合成フィルタ5−2で生じる近似誤差と同様の近似
誤差が変形ターゲット音声ベクトルx′w に付加され
たものとなる。距離計算部4−4では、聴覚重み付き合
成近似フィルタ5−2の出力である、近似誤差を含んだ
聴覚重み付き再生音声候補y′w と、変形ターゲット
音声ベクトルx′w との間の距離を計算する。従って
この距離計算においては聴覚重み付き合成近似フィルタ
5−2で生じる近似誤差は、聴覚重み付き合成近似フィ
ルタ6−4で付加された近似誤差と、距離計算の際に相
殺され、歪みd(距離)を高い精度で計算できる。
において、合成近似フィルタ5−2,6−4を具体的に
有限タップ長FIRフィルタ7−2,7−4の形で表現
したものである。このときのタップ数は、サブフレーム
長と同じ点数のタップ数を用いると、近似計算を用いな
い従来の方法と符号化結果が一致するが、演算処理量は
多くなる。一方、タップ数を過去のサンプル値を用いな
い1タップ(これを0タップと呼ぶこともある)に設定
すると、駆動音源ベクトル候補cと理想駆動音源ベク
トルrとの間の歪みを、駆動音源レベルで測定する符
号化方法になり、演算処理量は極めて少なくなるが、十
分な符号化品質が得られない。タップ数は符号化品質と
演算処理量のバランスを考慮して、1からサブフレーム
長(サブフレームのサンプル数)の範囲で決定すること
になるが、この発明による方法では、サブフレームが例
えば80サンプルのときに、タップ数を2〜6タップ程
度まで減らしても、有限タップ長FIR型聴覚重み付き
合成フィルタ7−2で生じる近似誤差が、ターゲット音
声xに対しても有限タップ長FIR型聴覚重み付き合
成フィルタ7−4に付加されるため、実際の音声を符号
化したときの信号対雑音比(SNR)、聴覚的品質と
も、ほとんど劣化しないことを確認している。
構成例において、固定符号ベクトル候補vr をピッチ
周期化して用いる構成例である。前記ACELP方式
や、「音響信号符号化方法及び音響信号復号化方法」
(特願平7−150550)でも図3に示す構成が用い
られている。ピッチ周期化部8−7には、適応符号帳に
入力される周期符号と同一の周期符号が入力され、周期
符号に対応する周期で固定符号帳2−2の出力vr を
周期化する。具体的な周期化操作は、固定符号ベクトル
vr に周期符号に対応するタップ位置のコムフィルタ
(櫛形フィルタ)をかけることが多い。またタップ位置
は、整数サンプル位置でもよいし、非整数サンプル位置
のコムフィルタを、アップサンプリングの手法を用いて
実現してもよい。
−1を探索するときには、固定符号帳2−2がないもの
として最適な周期符号(または、歪みが小さくなる複数
個の周期符号候補)を探索し、固定符号帳2−2を探索
するときには、適応符号ベクトルを合成して得られる適
応符号帳成分ya を、あらかじめ入力音声xから除
いたものを入力xr として、固定符号ベクトルvr
を合成して得られる成分yrpとxr との間の歪みが
最小になるような固定符号を探索するという手法が用い
られる。この手法を用いる場合の、固定符号ベクトル合
成歪み計算方法の構成例を図4に示す。図3におけるピ
ッチ周期化部8−7は、乗算部2−5と順序を入れ替え
ることができるため、図4に示すように、乗算部2−5
と合成フィルタ4−1の間にピッチ周期化部8−4を入
れることができる。固定符号ベクトルvr は乗算部2
−5に送られる。乗算部2−5ではvr に重みgr を
かけて駆動音源ベクトル候補cr を生成し、ピッチ周
期化部8−4に送る。cr はピッチ周期化された後、
合成フィルタ4−1を通って再生音声候補yrpとな
り、聴覚重みフィルタ4−2を通って、距離計算部4−
4に送られる。このとき、ピッチ周期化部8−4、合成
フィルタ4−1、聴覚重みフィルタ4−2は3つのフィ
ルタ特性を合成した特性を持つ1つのフィルタで表現す
ると、探索にかかる演算処理量を削減することできる。
しかしながら、上記8−4,4−1,4−2の3つのフ
ィルタの合成特性を持つフィルタをFIRフィルタで表
現した場合、合成フィルタ4−1や聴覚重みフィルタ4
−2の特性を持つFIRフィルタと違って、ピッチ周期
に相当すると考えられる周期のタップ位置付近に大きな
値の係数を持つため、図2に示す構成例のように、短い
タップ数でフィルタ係数を打ち切ってさらに高速な探索
をすることができない。
合でも高速に歪みを計算するこの発明の実施例を図5に
示す。図5の構成例では、図1に示す構成例と同様に、
図4における合成フィルタ4−1と聴覚重みフィルタ4
−2の特性を合わせ持つフィルタを、聴覚重み付き合成
近似フィルタ5−2に置き換える。図1の構成例と同様
に、近似によって生じる歪みを入力側との間で相殺でき
るように、入力xrは合成逆フィルタ6−3を通し、
フィルタ5−2と同じ特性の聴覚重み付き合成近似フィ
ルタ6−4を通すが、この構成例では、図4におけるピ
ッチ周期化フィルタ8−4の逆フィルタ(ピッチの周期
性を取り除くフィルタ)10−4を、音声xの入力側
に入れる。この構成において、聴覚重み付き合成近似フ
ィルタ5−2,6−4を、図2に示す構成例と同様に、
有限タップ長FIR形聴覚重み付き合成フィルタで置き
換えれば、非常に高速に符号帳の探索をすることができ
る。このときのFIRフィルタのタップ長は、図2の構
成例と同様に、過去のサンプル値を用いない1タップ
(0タップと呼ぶこともある)から、サブフレーム長ま
での間で、符号化品質と演算処理量とのバランスを考慮
して決められるが、この発明による方法では、サブフレ
ームが80点のときに、タップ数を2〜6タップ程度ま
で減らしても、実際の音声を符号化したときの、信号対
雑音比(SNR)、聴覚的品質とも、ほとんど劣化しな
いことを確認している。なお、図5の構成例において、
合成逆フィルタ6−3、ピッチ周期化逆フィルタ10−
4、聴覚重み付き合成近似フィルタ6−4が、すべて線
形フィルタのときには、それらの順序を交換してもよ
い。
IRフィルタを有限長で打ち切っても符号化音の品質劣
化が非常に少ない利点を用いて、効率的に歪み計算を実
施し、非常に高速な音声符号化を実現する構成例を示し
たものである。有限タップ長FIR型聴覚重み付き合成
フィルタ係数算出部11−1では、合成フィルタ係数
a^と量子化していない線形予測パラメータaか
ら、合成フィルタと聴覚重み付きフィルタを合わせた特
性を持つ、聴覚重み付き合成フィルタをFIR型で実現
したときのフィルタ係数を算出し、このフィルタ係数を
有限タップ長で打ち切った係数βを出力する。インパ
ルス応答行列生成部11−2では、下記式(2)に示す
ように、FIRフィルタ係数を要素とする三角行列を生
成する。ここで、Nはサブフレームのサンプル数を表
す。式(2)において、係数βは有限長で打ち切るた
め、例えば打ち切り次数をkとすると、βk からβN-1
までは0であって、式(3)のような行列となる。
憶しておく必要がない。相関行列生成部11−3では、
上記インパルス応答行列Hから、H tHを計算す
る。このとき、係数のβk からβN-1 までは0であるの
で、N×Nの行列計算をする必要がなく、k×kの行列
計算でH tHを求めることができる。例えば、k
は、2から6の値に設定しても符号化音の品質がほとん
ど劣化しないため、N=80のときに、80×80の行
列計算に比べて、例えば5×5の行列計算は著しい演算
処理量の削減となる。適応符号帳成分を除いた入力音声
x r は、合成逆フィルタ6−3を通り、ピッチ周期化
逆フィルタ10−4を通って、畳み込み部11−6に入
力される。畳み込み部11−6では、ピッチ周期化逆フ
ィルタ10−4の出力rp を、係数βのFIRフィ
ルタを通して、タップ打ち切り歪みを含むターゲット音
声x′rpを求め、x′rpとH行列を、時間軸反転
畳み込み操作もしくは行列演算によって、x′rp t
H(At は行列Aの転置を示す)を計算する。このと
きも打ち切り次数kを小さくとっていれば、非常に高速
に計算を行うことができる。畳み込み部11−6は、別
の手法を用いることもでき、相関行列計算部11−3の
出力H tHと、ピッチ逆周期化フィルタ11−5の
出力rp から、行列演算によって、rp t (H t
H)を計算することもできる。このとき、上記x′
rp t Hとrp t (H tH)は値が一致する。最
終距離尺度計算部11−7では駆動音源ベクトル候補の
固定符号帳成分cr と、H tH,x′rp t H
(またはrp t H tH)から、距離尺度 d′=(x′rp t Hcr )2 /(cr t H tHcr )(4) を計算する。d′は符号帳検索制御部に送られ、距離尺
度d′が最大になる(歪み尺度dが最小になることと等
価な)符号が選択される。
必ずしも聴覚重み付き特性を与えたものでなくてもよ
い。なお特許請求の範囲において「フレーム」はフレー
ムと、これを分割したサブフレームとの何れでもよい。
験を行った。4.6kbit/sのDual−Pulse
CS−CELPを構成した。フレーム長は20ms、サ
ブフレーム長は10ms(80点)とし、LPCの量子
化はフレーム毎、その他はサブフレーム毎に行う。ビッ
ト配分はフレーム当り、LSP22ビット、適応符号8
×2ビット、Dual−Pulse符号20×2利得符
号7×2(計92(4.6kbit/s))とし、Dual
Pulseは、1サブフレームあたり3組配置し、位
置11ビット、パタン6ビット、正負符号3ビットを割
り当てる。
この発明方法の性能を調べた。音声データは、8kHz
サンプリングで、ITU−T G.712帯域のフィル
タをかけたものを用いた。図7に、FIRフィルタのタ
ップを有限長で打ち切ったときの、打ち切りの次数とW
SNRの関係を示した。WSNRは、最終的な合成音と
入力音声との間で測定しているため、打ち切りのタップ
数にかかわらず同一の尺度である。図中の方法(1)
は、歪みを最小化するターゲット音声を従来の方法で求
め、符号帳探索のためのフィルタのタップのみ打ち切っ
た場合である。この場合は、20タップ以下になると急
速に品質が劣化している。方法(2)はピッチ周期化逆
フィルタを用いない図2に示したこの発明方法を適用し
た場合である。この方法を用いると、タップ数が2程度
まではWSNRにほとんど変化がない。方法(3)はピ
ッチ周期化逆フィルタを用いる図6に示したこの発明方
法を適用した場合である。4.6kbit/sのDual−
Pulse CS−CELPは、Dual Pulse
をピッチ周期化して駆動音源に用いるため、方法(3)
を用いることによって非常に高速な符号化を実現でき
る。この場合の品質を方法(2)の場合と比較すると、
全体的に0.3dB程度低下しているものの、方法
(2)の場合と同様に、タップ数を減らしてもWSNR
はあまり低下しなかった。
用する場合に比べてほとんど劣化が感じられない。ま
た、方法(3)は方法(2)に比べてわずかに劣化が感
じられる程度である。以上述べたようにこの発明によれ
ば、非常に少ないタップ数で打ち切り、高速な符号帳探
索、つまり高速な音声符号化を実現した場合でも、品質
の劣化が非常に少ないことが確認された。
み付き再生音声候補と、同じく近似誤差を含んだ変形タ
ーゲット音声との間の距離を計算する方法の機能構成を
示す図。
近似フィルタを有限タップ長FIRフィルタの形で表現
する例を示す機能構成図。
符号ベクトル候補をピッチ周期化して用いる機能構成例
を示す図。
合成歪み計算方法の機能構成例を示す図。
明を適用し、ピッチ周期化逆フィルタを入力側に入れた
歪み計算方法の機能構成を示す図。
ち切って効率的に歪み計算を実施し、非常に高速な音声
符号化を実現する方法の機能構成例を示す図。
の、FIRフィルタタップの打ち切り次数とWNSRの
関係を示すグラフ。
Linear Prediction:CELP)の機能構成例を示す
図。
成例を示す図。
ed Linear Prediction:CELP)に対応する復号方法
の機能構成例を示す図。
構成例を示す図。
き合成フィルタの近似フィルタを合成歪み計算に用いる
機能構成例を示す図。
Claims (5)
- 【請求項1】 適応符号帳ベクトルが記録された適応符
号帳と固定符号帳ベクトルが記録された固定符号帳とを
用い、 固定符号帳から取り出した固定符号帳ベクトル候補に基
づく駆動音源ベクトルと適応符号帳成分が除かれた入力
音響信号との距離尺度を最大とする前記固定符号帳ベク
トルを選択する音響信号符号化方法において、 入力音響信号から線形予測パラメータを算出する過程
と、 前記線形予測パラメータを量子化して合成フィルタ係数
を算出する過程と、 前記合成フィルタ係数を有限長のインパルス応答に近似
する過程と、 前記インパルス応答を要素とする三角行列で表現される
インパルス応答行列を生成する過程と、 前記インパルス応答行列と前記インパルス応答行列の転
置行列との積からなる相関行列を計算する過程と、 前記適応符号帳成分が除かれた入力音響信号を前記合成
フィルタ係数の逆フィルタ特性を有する合成逆フィルタ
を通過させて理想駆動音源ベクトルに変換する過程と、 前記理想駆動音源ベクトルに前記インパルス応答係数を
畳み込んでターゲット音声ベクトルを求め、さらに前記
インパルス応答行列を乗算する畳み込み過程と、 前記インパルス応答行列が乗算されたターゲット音声ベ
クトルと固定符号帳ベクトル候補との内積を、前記固定
符号帳ベクトル候補と前記相関行列と前記固定符号帳ベ
クトル候補の転置ベクトルとの積で除算して距離尺度を
計算する過程と、 を有することを特徴とする音響信号符号化方法。 - 【請求項2】 前記合成フィルタのタップ長を2タップ
以上6タップ以下とすることを特徴とする、請求項1記
載の音響信号符号化方法。 - 【請求項3】 前記固定符号帳から取り出した固定符号
帳ベクトル候補を、適応符号帳に入力される周期符号に
対応する周期で周期化フィルタにより周期化して前記駆
動音源ベクトルを得る過程と、 前記周期化フィルタの逆特性を有する周期化逆フィルタ
に、前記適応符号帳成分が除かれた前記入力音声もしく
は前記理想駆動音源ベクトルもしくはターゲット音声ベ
クトルのうち何れかを通過させる過程を有する、 請求項1または請求項2記載の音響信号符号化方法。 - 【請求項4】 前記合成フィルタ係数と前記線形予測パ
ラメータとから前記有限長で打ち切られた聴覚重み付き
合成フィルタ係数を算出する過程を有し、 前記聴覚重み付き合成フィルタ係数が前記合成フィルタ
係数として用いられることを特徴とする、 請求項1乃至3のうち何れかに記載の音響信号符号化方
法。 - 【請求項5】 前記相関行列を計算してメモリに展開し
て蓄積され、前記距離尺度計算に前記メモリに蓄積され
た相関行列の値を参照して行うことを特徴とする請求項
1乃至4の何れかに記載の音響信号符号化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09040404A JP3095133B2 (ja) | 1997-02-25 | 1997-02-25 | 音響信号符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09040404A JP3095133B2 (ja) | 1997-02-25 | 1997-02-25 | 音響信号符号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10242867A JPH10242867A (ja) | 1998-09-11 |
JP3095133B2 true JP3095133B2 (ja) | 2000-10-03 |
Family
ID=12579736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09040404A Expired - Lifetime JP3095133B2 (ja) | 1997-02-25 | 1997-02-25 | 音響信号符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3095133B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7283961B2 (en) | 2000-08-09 | 2007-10-16 | Sony Corporation | High-quality speech synthesis device and method by classification and prediction processing of synthesized sound |
EP1308927B9 (en) | 2000-08-09 | 2009-02-25 | Sony Corporation | Voice data processing device and processing method |
JP2002062899A (ja) * | 2000-08-23 | 2002-02-28 | Sony Corp | データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体 |
JP4517262B2 (ja) * | 2000-11-14 | 2010-08-04 | ソニー株式会社 | 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体 |
JP4857467B2 (ja) * | 2001-01-25 | 2012-01-18 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 |
JP4857468B2 (ja) * | 2001-01-25 | 2012-01-18 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 |
JPWO2007043643A1 (ja) * | 2005-10-14 | 2009-04-16 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法 |
US8200483B2 (en) | 2006-12-15 | 2012-06-12 | Panasonic Corporation | Adaptive sound source vector quantization device, adaptive sound source vector inverse quantization device, and method thereof |
EP2101320B1 (en) * | 2006-12-15 | 2014-09-03 | Panasonic Corporation | Adaptive excitation vector quantization apparatus and adaptive excitation vector quantization method |
-
1997
- 1997-02-25 JP JP09040404A patent/JP3095133B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
三樹ら「PSI−CELP音声符号化の基本アルゴリズム」NTT R&D Vol.43 No.4,pp363−372(1994) |
Also Published As
Publication number | Publication date |
---|---|
JPH10242867A (ja) | 1998-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3481251B2 (ja) | 代数的符号励振線形予測音声符号化方法 | |
JP3042886B2 (ja) | ベクトル量子化器の方法および装置 | |
JP3180762B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JPH0990995A (ja) | 音声符号化装置 | |
JPH04270400A (ja) | 音声符号化方式 | |
JP3180786B2 (ja) | 音声符号化方法及び音声符号化装置 | |
US6094630A (en) | Sequential searching speech coding device | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JP3095133B2 (ja) | 音響信号符号化方法 | |
JP3335841B2 (ja) | 信号符号化装置 | |
JPH05216500A (ja) | 音声符号化装置 | |
JP3174733B2 (ja) | Celp型音声復号化装置、およびcelp型音声復号化方法 | |
JP3148778B2 (ja) | 音声の符号化方法 | |
JP3299099B2 (ja) | 音声符号化装置 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP3192999B2 (ja) | 音声符号化方法および音声符号化方法 | |
JPH08185199A (ja) | 音声符号化装置 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JP3089967B2 (ja) | 音声符号化装置 | |
JP2002221998A (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音声符号化、復号化方法、装置及びプログラム | |
JP3092436B2 (ja) | 音声符号化装置 | |
JP3024467B2 (ja) | 音声符号化装置 | |
JP2000029499A (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP2808841B2 (ja) | 音声符号化方式 | |
JP3144244B2 (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080804 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080804 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090804 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090804 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100804 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100804 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110804 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120804 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130804 Year of fee payment: 13 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |