JP3095133B2

JP3095133B2 - 音響信号符号化方法

Info

Publication number: JP3095133B2
Application number: JP09040404A
Authority: JP
Inventors: 仲大室; 一則間野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-02-25
Filing date: 1997-02-25
Publication date: 2000-10-03
Anticipated expiration: 2017-02-25
Also published as: JPH10242867A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声，音楽など
の音響信号の、スペクトル包絡特性を表すフィルタを音
源ベクトルで駆動して音響信号を合成する予測符号化に
より、音響信号の信号系列を少ない情報量でディジタル
符号化する高能率音声符号化方法に関する。

【０００２】

【従来の技術】ディジタル移動体通信において、電波を
効率的に利用したり、音声または音楽蓄積サービス等で
通信回線や記憶媒体を効率的に利用するために、高能率
音声符号化方法が用いられる。現在、音声を高能率に符
号化する方法として、原音声をフレーム（またはサブフ
レーム）と呼ばれる５〜５０ｍｓ程度の一定間隔の区間
に分割し、その１フレームの音声を周波数スペクトルの
包絡特性を表す線形フィルタの特性と、そのフィルタを
駆動するための駆動音源信号との２つの情報に分離し、
それぞれを符号化する手法が提案されている。この手法
において、駆動音源信号を符号化する方法として、音声
のピッチ周期（基本周波数）に対応すると考えられる周
期成分と、それ以外の成分に分離して符号化する方法が
知られている。この駆動音源情報の符号化法の例とし
て、符号駆動線形予測符号化（Code-Excited Linear Pr
ediction: ＣＥＬＰ）がある。上記技術の詳細について
は、文献 M.R. Schroeder and B.S. Atal,“Code-Excit
ed Linear Prediction（ＣＥＬＰ）：High Quality Spe
ech at Very Low Bit Rates ”，ＩＥＥＥ Proc.ＩＣＡ
ＳＳP-85, pp.937-940, 1985に記載されている。

【０００３】図８に上記符号化方法の構成例を示す。入
力端子１−０に入力された音声ｘは、線形予測分析部
１−１において、入力音声の周波数スペクトル包絡特性
を表す線形予測パラメータａが計算される。得られた
線形予測パラメータａは線形予測パラメータ符号化部
１−２において、符号化されて線形予測パラメータ復号
部１−３に送られる。また、歪み計算に聴覚特性を考慮
するなど、入力音声のスペクトル情報を利用して歪み計
算を行う場合には、線形予測パラメータａは歪み計算
部１−６へも送られる。線形予測パラメータ復号部１−
３では、受け取った符号から合成フィルタ係数ａ＾を
再生し、合成フィルタ１−５に送る。歪み計算に聴覚特
性を考慮する場合に、歪み計算部１−６において量子化
前の線形予測パラメータａを用いる代わりに、上記復
号された線形予測パラメータａ＾を歪み計算に使用す
ることもある。なお、線形予測分析の詳細および線形予
測パラメータの符号化例については、例えば古井貞煕著
“ディジタル音声処理”（東海大学出版会）に記載され
ている。ここで、線形予測分析部１−１、線形予測パラ
メータ符号化部１−２、線形予測パラメータ復号部１−
３および合成フィルタ１−５は非線形なものに置き換え
てもよい。

【０００４】駆動音源ベクトル生成部１−４では、１フ
レーム分の長さの駆動音源ベクトル候補ｃを生成し、
合成フィルタ１−５に送る。図９に駆動音源ベクトル生
成部１−４の構成例を示す。適応符号帳２−１からは、
バッファに記憶された直前の過去の駆動音源ベクトル
（既に量子化された直前の１〜数フレーム分の駆動音源
ベクトル）ｃ（ｔ−１）を、ある周期に相当する長さ
で切り出し、その切り出したベクトルをフレームの長さ
になるまで繰り返すことによって、音声の周期成分に対
応する時系列ベクトルの候補ｖ_aが出力される。上記
「ある周期」とは、歪み計算部１−６における歪みｄが
小さくなるような周期が選択されるが、選択された周期
は、一般には音声のピッチ周期に相当することが多い。
固定符号帳２−２からは、音声の非周期成分に対応する
１フレーム分の長さの時系列符号ベクトルの候補ｖ_r
が出力される。固定符号帳２−２には入力音声とは独立
に符号化のためのビット数に応じてあらかじめ指定され
た数の候補ベクトルが記憶されている。適応符号帳２−
１および固定符号帳２−２から出力された時系列ベクト
ルの候補は、乗算部２−４，２−５において、それぞれ
重み符号帳２−３において作成された重みｇ_a, ｇ_rが
乗算され、これら乗算結果は加算部２−６において加算
され、駆動音源ベクトルの候補ｃとなる。図９の構成
例において、適応符号帳２−１を用いないで、固定符号
帳２−２のみの構成としてもよく、子音部や背景雑音な
どのピッチ周期性の少ない信号を符号化するときには、
ビットを節約するために、適応符号帳２−１を用いない
構成にすることも多い。

【０００５】図８の説明に戻って、合成フィルタ１−５
は、線形予測パラメータ復号部１−３の出力をフィルタ
の係数とする線形フィルタで、駆動音源ベクトル候補
ｃを入力として再生音声の候補ｙを出力する。合成
フィルタ１−５の次数すなわち線形予測分析の次数は、
一般に１０〜１６次程度が用いられることが多い。な
お、既に述べたように、合成フィルタ１−５は非線形な
フィルタでもよい。

【０００６】歪み計算部１−６では、合成フィルタ１−
５の出力である再生音声の候補ｙと、入力音声ｘと
の歪みｄを計算する。この歪みの計算は、例えば聴覚重
み付きなど、合成フィルタの係数ａ＾または量子化し
ていない線形予測係数ａを考慮にいれて行なうことが
多い。図１１に、聴覚重みづきを考慮して歪みを計算す
る構成例を示した。聴覚重みづきは、量子化していない
線形予測パラメータａもしくは量子化された合成フィ
ルタ係数ａ＾を用いた、聴覚重みフィルタの形で構成
される。合成フィルタ４−１から出力される再生音声候
補ｙは、聴覚重みフィルタ４−２を通され、これは、
同じく聴覚重みフィルタ４−３に通された入力音声との
間で、歪みｄが計算される。ここで、聴覚重みフィルタ
４−２，４−３は通常同一のフィルタ係数を用いるた
め、聴覚重みフィルタ４−２，４−３は、距離計算部４
−４の後に１つのフィルタとして入れても等価である
が、処理量の点から、図１１に示されるように、距離計
算部４−４の手前で２ケ所に分けて入れることが多い。

【０００７】この合成重み計算部１−７について更に述
べると入力時系列音声ベクトルｘは聴覚重みフィルタ
４−３を通り、ターゲット音声ｘ_wとなって、距離計
算部４−４に送られる。一方、駆動音源ベクトル候補
ｃは、合成フィルタ４−１と聴覚重みフィルタ４−２
を通り、聴覚重み付き再生音声候補ベクトルｙ_wとな
って、距離計算部４−４に送られる。距離計算部４−４
では、ターゲット音声ベクトルｘ_wと再生音声候補ベ
クトルｙ_wの間の距離を測定する。このときの距離尺
度には例えば、ｄ＝‖ｘ_w−ｙ_w‖² （１）といった距離尺度を用いればよい。上記歪み尺度を最小
にするような駆動音源ベクトルが選択される。図９に示
したような駆動音源ベクトル生成の構成を用いる場合に
は、周期符号、固定符号、重み符号が決定される。な
お、聴覚重みフィルタ４−２，４−３は、人間の聴覚特
性を利用して再生音声の雑音感を低減するような歪み計
算をするためのフィルタで、必ずしも用いる必要はな
い。

【０００８】このとき、入力時系列音声ベクトルｘ
は、入力音声信号そのままの場合もあるが、一般には、
前サブフレームからの影響を差し引いた、時系列信号で
あることが多い。また、図９に示したような駆動音源ベ
クトル生成の構成を用いる場合に、周期符号、固定符
号、重み符号のすべての可能な組み合わせの中から、最
適な組み合わせを１つ選択することは演算処理量の点か
ら難しく、例えば周期符号、固定符号、重み符号の順に
順次決定するか、途中で適宜候補を絞りながら順次探索
し、最後に準最適な組み合わせに決定することが多い。
このように順次決定または順次候補を残しながら探索す
る場合には、先に選択された符号ベクトル（例えば適応
符号ベクトル）に起因する合成成分を入力音声から差し
引き、駆動音源ベクトル候補ｃには、これから決定し
たいベクトル成分のみ（例えば固定符号ベクトルのみ）
を入力して歪み計算をする場合も多い。

【０００９】図８において符号帳検索制御部１−８では
各再生音声候補ｙと入力音声ｘとの歪みｄが最小と
なるような駆動音源符号を選択し、そのフレームにおけ
る駆動音源ベクトルを決定する。なお、図９に示される
適応符号帳２−１、固定符号帳２−２、重み符号帳２−
３よりなる構成とする場合には、周期符号、固定符号お
よび重み符号を選択し、これらを駆動音源符号とする。

【００１０】符号帳検索制御部１−８において決定され
た駆動音源符号（周期符号、雑音符号、重み符号）と、
線形予測パラメータ符号化部１−２の出力である線形予
測パラメータ符号は、符号送出部１−９に送られ、利用
の形態に応じて記憶装置に記憶されるか、または通信路
を介して受信側へ送られる。図１０に、上記符号化方法
に対応する復号方法の構成例を示した。伝送路または記
憶媒体から入力端子３−０に受信された符号のうち、線
形予測パラメータ符号は線形予測パラメータ復号部３−
２において合成フィルタ係数に復号され、合成フィルタ
３−４および、必要に応じて後処理部３−５に送られ
る。駆動音源符号は、駆動音源ベクトル生成部３−３に
送られ、符号に対応する音源ベクトルが生成される。な
お、駆動音源ベクトル生成部３−３の構成は、図８に示
された符号化方法の駆動音源ベクトル生成部１−４に対
応する構成となる。合成フィルタ３−４は、駆動音源ベ
クトルを入力として、音声を再生する。後処理部３−５
は、再生された音声の雑音感を聴覚的に低下させるよう
な処理（ポストフィルタリングとも呼ばれる）を行う
が、後処理部３−５は処理量削減等の関係から用いられ
ないことも多い。

【００１１】

【発明が解決しようとする課題】ＣＥＬＰ方式において
問題となるのは、駆動音源ベクトル候補の選択をするた
めの歪み計算に、非常に多くの演算処理が必要になるこ
とである。この問題に対して、Algebraic Code-Excited
Linear Prediction（ＡＣＥＬＰ）という方式が提案さ
れている。この方式は、固定符号帳を、フレーム長のベ
クトルパターンとして蓄えるのではなく、高さが１のパ
ルスを、フレーム内に数本、例えば、４０サンプルのフ
レームまたはサブフレームに対して、４本、適当な位置
に立てることによって、固定符号ベクトルとする方式
で、この駆動音源方式の採用と、歪み計算において演算
順序を工夫することによって、従来の方式に比べて演算
処理を大幅に減らすことができる。なお、ＡＣＥＬＰ方
式の詳細は、例えば、文献，R. Salami, C. Laflamme,
and J-P. Adoul, “ 8 kbit/s ＡＣＥＬＰ Coding of
Speech with 10 ms Speech-Frame: a Candidate for Ｃ
ＣＩＴＴStandardization ”，ＩＥＥＥ Proc. ICASSP-
94, pp.II-97に記載されている。また、同様の処理概念
にもとづき、より高品質かつより低演算量の方法とし
て、この発明者等が既に出願した「音響信号符号化方法
及び音響信号復号化方法」（特願平７−１５０５５０）
がある。この方式では、固定符号ベクトルとして、高さ
が１のパルスのかわりに、隣接する２〜数サンプルを単
位とし、高さ情報を持つパルスパタンをフレーム内に配
置する手法を用いることによって、より低演算量と高品
質を両立している。

【００１２】しかしながら、これらの方式においては、
歪み計算に合成フィルタまたは聴覚重みづきフィルタ、
またはそれらを合わせたフィルタを、インパルス応答ま
たはＦＩＲ型のフィルタで表現することが多いが、フレ
ームまたはサブフレームが長くなると、ＩＩＲ型フィル
タを用いる場合と等価な結果を得るためのＦＩＲフィル
タのタップ数が長くなり、演算量が従来方式に比べて逆
に増加してしまうばかりでなく、歪み計算において計算
の途中結果を格納するために、著しく大量のメモリが必
要になるなどの問題がある。したがって、上記方法をそ
のまま、一般にサブフレームを長くする低ビットレート
音声符号化に利用することは難しい。

【００１３】一方図１１の構成において、駆動音源ベク
トル候補ｃを合成フィルタ４−１と聴覚重みづきフィ
ルタ４−２に通す操作を、高速に実行するためには、こ
れらの２つのフィルタを合わせて、等価なフィルタ特性
を持つ１つの聴覚重み付き合成フィルタとするとよい。
等価な１つのフィルタとするには、例えば合成フィルタ
４−１の入力から聴覚重みフィルタ４−２の出力までの
インパルス応答をフィルタ係数とすＦＩＲフィルタで表
現することができる。

【００１４】図１２は上記１つの等価なフィルタで表現
する構成において、更に高速な歪み計算を実現する構成
である。例えば、ＦＩＲフィルタ表現された聴覚重み付
き合成しフィルタを、有限タップで打ち切ったり、短い
タップ数のＡＲフィルタで近似したりして、あるいはＦ
ＩＲフィルタのタップ数を、ＩＩＲフィルタの場合と等
価な結果を得るのに必要なタップ数よりも減らすなどの
方法による厳密にはフィルタ特性の一致しない聴覚重み
付き合成近似フィルタ５−２で代用する。これによって
合成歪み計算における演算処理量およびメモリ量を減ら
すことができる。しかしながら、図１２の構成を用いた
場合、近似フィルタ５−２のフィルタ特性と、元の合成
フィルタ４−１および聴覚重み付きフィルタ４−２の特
性との差が大きくなると、近似誤差によって適当な駆動
音源符号が選択されなくなり、再生音声の著しい品質劣
化につながるため、事実上、サブフレームを長くとるこ
と、すなわちビットレートを低くすることは不可能であ
った。

【００１５】この発明の目的は、低いビットレート、か
つ安価なプロセッサで許容される範囲内の少ないメモリ
量、少ない演算量で、高品質な再生音声が得られるよう
な、音声または音楽などの音響信号をディジタル符号化
する方法を提供することにある。

【００１６】

【課題を解決するための手段】この発明では、ＦＩＲ型
合成フィルタのタップを途中で打ち切るなどの高速に歪
み計算ができるように簡略化した近似フィルタを合成歪
み計算に用い、この近似フィルタで表現したことにもと
づき生じる近似誤差を、入力音声に付加し、これを符号
帳探索時のターゲットベクトルとする。

【００１７】この構成により近似による影響を歪み計算
において、相殺し、サブフレームの長い場合でも、非常
に少ないメモリ量、処理量で、高品質な低ビットレート
符号化方法を実現する。

【００１８】

【発明の実施の形態】この発明の実施例の前提となる構
成を図１に示す。入力端子６−０よりの入力音声ｘ
は、量子化された（復号された）合成フィルタ係数ａ
＾による合成フィルタの逆フィルタ（合成逆フィルタ）
６−３を通り、理想の（量子化しない）駆動音源ベクト
ルｒに変換される。ｒは、図１１において駆動音源
ベクトル候補ｃを入力とする合成フィルタ４−１に通
したときに、入力音声ｘとの歪みがゼロになる理想の
駆動音源ベクトルである。理想駆動音源ベクトルｒ
は、聴覚重み付き合成近似フィルタ５−２と同じ特性の
聴覚重み付き合成近似フィルタ６−４を通って変形ター
ゲット音声ベクトルｘ′_wとなる。この時、聴覚重み
付き合成フィルタ５−２で生じる近似誤差と同様の近似
誤差が変形ターゲット音声ベクトルｘ′_wに付加され
たものとなる。距離計算部４−４では、聴覚重み付き合
成近似フィルタ５−２の出力である、近似誤差を含んだ
聴覚重み付き再生音声候補ｙ′_wと、変形ターゲット
音声ベクトルｘ′_wとの間の距離を計算する。従って
この距離計算においては聴覚重み付き合成近似フィルタ
５−２で生じる近似誤差は、聴覚重み付き合成近似フィ
ルタ６−４で付加された近似誤差と、距離計算の際に相
殺され、歪みｄ（距離）を高い精度で計算できる。

【００１９】図２は、図１におけるこの発明による方法
において、合成近似フィルタ５−２，６−４を具体的に
有限タップ長ＦＩＲフィルタ７−２，７−４の形で表現
したものである。このときのタップ数は、サブフレーム
長と同じ点数のタップ数を用いると、近似計算を用いな
い従来の方法と符号化結果が一致するが、演算処理量は
多くなる。一方、タップ数を過去のサンプル値を用いな
い１タップ（これを０タップと呼ぶこともある）に設定
すると、駆動音源ベクトル候補ｃと理想駆動音源ベク
トルｒとの間の歪みを、駆動音源レベルで測定する符
号化方法になり、演算処理量は極めて少なくなるが、十
分な符号化品質が得られない。タップ数は符号化品質と
演算処理量のバランスを考慮して、１からサブフレーム
長（サブフレームのサンプル数）の範囲で決定すること
になるが、この発明による方法では、サブフレームが例
えば８０サンプルのときに、タップ数を２〜６タップ程
度まで減らしても、有限タップ長ＦＩＲ型聴覚重み付き
合成フィルタ７−２で生じる近似誤差が、ターゲット音
声ｘに対しても有限タップ長ＦＩＲ型聴覚重み付き合
成フィルタ７−４に付加されるため、実際の音声を符号
化したときの信号対雑音比（ＳＮＲ）、聴覚的品質と
も、ほとんど劣化しないことを確認している。

【００２０】図３は、駆動音源ベクトル生成部１−４の
構成例において、固定符号ベクトル候補ｖ_rをピッチ
周期化して用いる構成例である。前記ＡＣＥＬＰ方式
や、「音響信号符号化方法及び音響信号復号化方法」
（特願平７−１５０５５０）でも図３に示す構成が用い
られている。ピッチ周期化部８−７には、適応符号帳に
入力される周期符号と同一の周期符号が入力され、周期
符号に対応する周期で固定符号帳２−２の出力ｖ_rを
周期化する。具体的な周期化操作は、固定符号ベクトル
ｖ_rに周期符号に対応するタップ位置のコムフィルタ
（櫛形フィルタ）をかけることが多い。またタップ位置
は、整数サンプル位置でもよいし、非整数サンプル位置
のコムフィルタを、アップサンプリングの手法を用いて
実現してもよい。

【００２１】図３の構成において、通常、適応符号帳８
−１を探索するときには、固定符号帳２−２がないもの
として最適な周期符号（または、歪みが小さくなる複数
個の周期符号候補）を探索し、固定符号帳２−２を探索
するときには、適応符号ベクトルを合成して得られる適
応符号帳成分ｙ_aを、あらかじめ入力音声ｘから除
いたものを入力ｘ_rとして、固定符号ベクトルｖ_r
を合成して得られる成分ｙ_rpとｘ_rとの間の歪みが
最小になるような固定符号を探索するという手法が用い
られる。この手法を用いる場合の、固定符号ベクトル合
成歪み計算方法の構成例を図４に示す。図３におけるピ
ッチ周期化部８−７は、乗算部２−５と順序を入れ替え
ることができるため、図４に示すように、乗算部２−５
と合成フィルタ４−１の間にピッチ周期化部８−４を入
れることができる。固定符号ベクトルｖ_rは乗算部２
−５に送られる。乗算部２−５ではｖ_rに重みｇ_rを
かけて駆動音源ベクトル候補ｃ_rを生成し、ピッチ周
期化部８−４に送る。ｃ_rはピッチ周期化された後、
合成フィルタ４−１を通って再生音声候補ｙ_rpとな
り、聴覚重みフィルタ４−２を通って、距離計算部４−
４に送られる。このとき、ピッチ周期化部８−４、合成
フィルタ４−１、聴覚重みフィルタ４−２は３つのフィ
ルタ特性を合成した特性を持つ１つのフィルタで表現す
ると、探索にかかる演算処理量を削減することできる。
しかしながら、上記８−４，４−１，４−２の３つのフ
ィルタの合成特性を持つフィルタをＦＩＲフィルタで表
現した場合、合成フィルタ４−１や聴覚重みフィルタ４
−２の特性を持つＦＩＲフィルタと違って、ピッチ周期
に相当すると考えられる周期のタップ位置付近に大きな
値の係数を持つため、図２に示す構成例のように、短い
タップ数でフィルタ係数を打ち切ってさらに高速な探索
をすることができない。

【００２２】この問題を解決し、ピッチ周期化のある場
合でも高速に歪みを計算するこの発明の実施例を図５に
示す。図５の構成例では、図１に示す構成例と同様に、
図４における合成フィルタ４−１と聴覚重みフィルタ４
−２の特性を合わせ持つフィルタを、聴覚重み付き合成
近似フィルタ５−２に置き換える。図１の構成例と同様
に、近似によって生じる歪みを入力側との間で相殺でき
るように、入力ｘ_rは合成逆フィルタ６−３を通し、
フィルタ５−２と同じ特性の聴覚重み付き合成近似フィ
ルタ６−４を通すが、この構成例では、図４におけるピ
ッチ周期化フィルタ８−４の逆フィルタ（ピッチの周期
性を取り除くフィルタ）１０−４を、音声ｘの入力側
に入れる。この構成において、聴覚重み付き合成近似フ
ィルタ５−２，６−４を、図２に示す構成例と同様に、
有限タップ長ＦＩＲ形聴覚重み付き合成フィルタで置き
換えれば、非常に高速に符号帳の探索をすることができ
る。このときのＦＩＲフィルタのタップ長は、図２の構
成例と同様に、過去のサンプル値を用いない１タップ
（０タップと呼ぶこともある）から、サブフレーム長ま
での間で、符号化品質と演算処理量とのバランスを考慮
して決められるが、この発明による方法では、サブフレ
ームが８０点のときに、タップ数を２〜６タップ程度ま
で減らしても、実際の音声を符号化したときの、信号対
雑音比（ＳＮＲ）、聴覚的品質とも、ほとんど劣化しな
いことを確認している。なお、図５の構成例において、
合成逆フィルタ６−３、ピッチ周期化逆フィルタ１０−
４、聴覚重み付き合成近似フィルタ６−４が、すべて線
形フィルタのときには、それらの順序を交換してもよ
い。

【００２３】図６は、この発明による方法において、Ｆ
ＩＲフィルタを有限長で打ち切っても符号化音の品質劣
化が非常に少ない利点を用いて、効率的に歪み計算を実
施し、非常に高速な音声符号化を実現する構成例を示し
たものである。有限タップ長ＦＩＲ型聴覚重み付き合成
フィルタ係数算出部１１−１では、合成フィルタ係数
ａ＾と量子化していない線形予測パラメータａか
ら、合成フィルタと聴覚重み付きフィルタを合わせた特
性を持つ、聴覚重み付き合成フィルタをＦＩＲ型で実現
したときのフィルタ係数を算出し、このフィルタ係数を
有限タップ長で打ち切った係数βを出力する。インパ
ルス応答行列生成部１１−２では、下記式（２）に示す
ように、ＦＩＲフィルタ係数を要素とする三角行列を生
成する。ここで、Ｎはサブフレームのサンプル数を表
す。式（２）において、係数βは有限長で打ち切るた
め、例えば打ち切り次数をｋとすると、β_kからβ_N-1
までは０であって、式（３）のような行列となる。

【００２４】このとき上記行列の要素が０の部分は、メモリなどに記
憶しておく必要がない。相関行列生成部１１−３では、
上記インパルス応答行列Ｈから、Ｈ^tＨを計算す
る。このとき、係数のβ_kからβ_N-1までは０であるの
で、Ｎ×Ｎの行列計算をする必要がなく、ｋ×ｋの行列
計算でＨ^tＨを求めることができる。例えば、ｋ
は、２から６の値に設定しても符号化音の品質がほとん
ど劣化しないため、Ｎ＝８０のときに、８０×８０の行
列計算に比べて、例えば５×５の行列計算は著しい演算
処理量の削減となる。適応符号帳成分を除いた入力音声
ｘ _rは、合成逆フィルタ６−３を通り、ピッチ周期化
逆フィルタ１０−４を通って、畳み込み部１１−６に入
力される。畳み込み部１１−６では、ピッチ周期化逆フ
ィルタ１０−４の出力ｒ_pを、係数βのＦＩＲフィ
ルタを通して、タップ打ち切り歪みを含むターゲット音
声ｘ′_rpを求め、ｘ′_rpとＨ行列を、時間軸反転
畳み込み操作もしくは行列演算によって、ｘ′_rp ^t
Ｈ（Ａ^tは行列Ａの転置を示す）を計算する。このと
きも打ち切り次数ｋを小さくとっていれば、非常に高速
に計算を行うことができる。畳み込み部１１−６は、別
の手法を用いることもでき、相関行列計算部１１−３の
出力Ｈ^tＨと、ピッチ逆周期化フィルタ１１−５の
出力ｒ_pから、行列演算によって、ｒ_p ^t（Ｈ^t
Ｈ）を計算することもできる。このとき、上記ｘ′
_rp ^tＨとｒ_p ^t（Ｈ^tＨ）は値が一致する。最
終距離尺度計算部１１−７では駆動音源ベクトル候補の
固定符号帳成分ｃ_rと、Ｈ^tＨ，ｘ′_rp ^tＨ
（またはｒ_p ^tＨ ^tＨ）から、距離尺度ｄ′＝（ｘ′_rp ^tＨｃ_r）²／（ｃ_r ^tＨ^tＨｃ_r）（４）を計算する。ｄ′は符号帳検索制御部に送られ、距離尺
度ｄ′が最大になる（歪み尺度ｄが最小になることと等
価な）符号が選択される。

【００２５】上述において、合成近似フィルタとしては
必ずしも聴覚重み付き特性を与えたものでなくてもよ
い。なお特許請求の範囲において「フレーム」はフレー
ムと、これを分割したサブフレームとの何れでもよい。

【００２６】

【発明の効果】この発明の効果を確認するため下記の実
験を行った。４．６ｋbit/ｓのＤｕａｌ−Ｐｕｌｓｅ
ＣＳ−ＣＥＬＰを構成した。フレーム長は２０ｍｓ、サ
ブフレーム長は１０ｍｓ（８０点）とし、ＬＰＣの量子
化はフレーム毎、その他はサブフレーム毎に行う。ビッ
ト配分はフレーム当り、ＬＳＰ２２ビット、適応符号８
×２ビット、Ｄｕａｌ−Ｐｕｌｓｅ符号２０×２利得符
号７×２（計９２（４．６ｋbit/ｓ））とし、Ｄｕａｌ
Ｐｕｌｓｅは、１サブフレームあたり３組配置し、位
置１１ビット、パタン６ビット、正負符号３ビットを割
り当てる。

【００２７】上記符号化器に実音声データを入力して、
この発明方法の性能を調べた。音声データは、８ｋＨｚ
サンプリングで、ＩＴＵ−ＴＧ．７１２帯域のフィル
タをかけたものを用いた。図７に、ＦＩＲフィルタのタ
ップを有限長で打ち切ったときの、打ち切りの次数とＷ
ＳＮＲの関係を示した。ＷＳＮＲは、最終的な合成音と
入力音声との間で測定しているため、打ち切りのタップ
数にかかわらず同一の尺度である。図中の方法（１）
は、歪みを最小化するターゲット音声を従来の方法で求
め、符号帳探索のためのフィルタのタップのみ打ち切っ
た場合である。この場合は、２０タップ以下になると急
速に品質が劣化している。方法（２）はピッチ周期化逆
フィルタを用いない図２に示したこの発明方法を適用し
た場合である。この方法を用いると、タップ数が２程度
まではＷＳＮＲにほとんど変化がない。方法（３）はピ
ッチ周期化逆フィルタを用いる図６に示したこの発明方
法を適用した場合である。４．６ｋbit/ｓのＤｕａｌ−
ＰｕｌｓｅＣＳ−ＣＥＬＰは、ＤｕａｌＰｕｌｓｅ
をピッチ周期化して駆動音源に用いるため、方法（３）
を用いることによって非常に高速な符号化を実現でき
る。この場合の品質を方法（２）の場合と比較すると、
全体的に０．３ｄＢ程度低下しているものの、方法
（２）の場合と同様に、タップ数を減らしてもＷＳＮＲ
はあまり低下しなかった。

【００２８】聴感上も６タップ程度使えば、全タップ使
用する場合に比べてほとんど劣化が感じられない。ま
た、方法（３）は方法（２）に比べてわずかに劣化が感
じられる程度である。以上述べたようにこの発明によれ
ば、非常に少ないタップ数で打ち切り、高速な符号帳探
索、つまり高速な音声符号化を実現した場合でも、品質
の劣化が非常に少ないことが確認された。

【図面の簡単な説明】

【図１】この発明の前提となる近似誤差を含んだ聴覚重
み付き再生音声候補と、同じく近似誤差を含んだ変形タ
ーゲット音声との間の距離を計算する方法の機能構成を
示す図。

【図２】図１に示した方法において、聴覚重み付き合成
近似フィルタを有限タップ長ＦＩＲフィルタの形で表現
する例を示す機能構成図。

【図３】駆動音源ベクトル生成部の構成において、固定
符号ベクトル候補をピッチ周期化して用いる機能構成例
を示す図。

【図４】図３の構成を用いる場合の、固定符号ベクトル
合成歪み計算方法の機能構成例を示す図。

【図５】図３に示すピッチ周期化のある場合に、この発
明を適用し、ピッチ周期化逆フィルタを入力側に入れた
歪み計算方法の機能構成を示す図。

【図６】この発明方法で、ＦＩＲフィルタを有限長で打
ち切って効率的に歪み計算を実施し、非常に高速な音声
符号化を実現する方法の機能構成例を示す図。

【図７】この発明を実際の音声符号化に適用した場合
の、ＦＩＲフィルタタップの打ち切り次数とＷＮＳＲの
関係を示すグラフ。

【図８】音声の符号駆動線形予測符号化（Code-Excited
Linear Prediction：ＣＥＬＰ）の機能構成例を示す
図。

【図９】図８における駆動音源ベクトル生成部の機能構
成例を示す図。

【図１０】音声の符号駆動線形予測符号化（Code-Excit
ed Linear Prediction：ＣＥＬＰ）に対応する復号方法
の機能構成例を示す図。

【図１１】聴覚重みづきを考慮して歪みを計算する機能
構成例を示す図。

【図１２】従来の高速歪み計算方法の例で、聴覚重み付
き合成フィルタの近似フィルタを合成歪み計算に用いる
機能構成例を示す図。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平８−248996（ＪＰ，Ａ) 特表平７−506202（ＪＰ，Ａ) 三樹ら「ＰＳＩ−ＣＥＬＰ音声符号化の基本アルゴリズム」ＮＴＴＲ＆ＤＶｏｌ．43 Ｎｏ．４，ｐｐ363−372 （1994) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 - 21/06 H03M 7/30 H03M 7/42 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】適応符号帳ベクトルが記録された適応符
号帳と固定符号帳ベクトルが記録された固定符号帳とを
用い、固定符号帳から取り出した固定符号帳ベクトル候補に基
づく駆動音源ベクトルと適応符号帳成分が除かれた入力
音響信号との距離尺度を最大とする前記固定符号帳ベク
トルを選択する音響信号符号化方法において、入力音響信号から線形予測パラメータを算出する過程
と、前記線形予測パラメータを量子化して合成フィルタ係数
を算出する過程と、前記合成フィルタ係数を有限長のインパルス応答に近似
する過程と、前記インパルス応答を要素とする三角行列で表現される
インパルス応答行列を生成する過程と、前記インパルス応答行列と前記インパルス応答行列の転
置行列との積からなる相関行列を計算する過程と、前記適応符号帳成分が除かれた入力音響信号を前記合成
フィルタ係数の逆フィルタ特性を有する合成逆フィルタ
を通過させて理想駆動音源ベクトルに変換する過程と、前記理想駆動音源ベクトルに前記インパルス応答係数を
畳み込んでターゲット音声ベクトルを求め、さらに前記
インパルス応答行列を乗算する畳み込み過程と、前記インパルス応答行列が乗算されたターゲット音声ベ
クトルと固定符号帳ベクトル候補との内積を、前記固定
符号帳ベクトル候補と前記相関行列と前記固定符号帳ベ
クトル候補の転置ベクトルとの積で除算して距離尺度を
計算する過程と、を有することを特徴とする音響信号符号化方法。
【請求項２】前記合成フィルタのタップ長を２タップ
以上６タップ以下とすることを特徴とする、請求項１記
載の音響信号符号化方法。
【請求項３】前記固定符号帳から取り出した固定符号
帳ベクトル候補を、適応符号帳に入力される周期符号に
対応する周期で周期化フィルタにより周期化して前記駆
動音源ベクトルを得る過程と、前記周期化フィルタの逆特性を有する周期化逆フィルタ
に、前記適応符号帳成分が除かれた前記入力音声もしく
は前記理想駆動音源ベクトルもしくはターゲット音声ベ
クトルのうち何れかを通過させる過程を有する、請求項１または請求項２記載の音響信号符号化方法。
【請求項４】前記合成フィルタ係数と前記線形予測パ
ラメータとから前記有限長で打ち切られた聴覚重み付き
合成フィルタ係数を算出する過程を有し、前記聴覚重み付き合成フィルタ係数が前記合成フィルタ
係数として用いられることを特徴とする、請求項１乃至３のうち何れかに記載の音響信号符号化方
法。
【請求項５】前記相関行列を計算してメモリに展開し
て蓄積され、前記距離尺度計算に前記メモリに蓄積され
た相関行列の値を参照して行うことを特徴とする請求項
１乃至４の何れかに記載の音響信号符号化方法。