JP3095133B2 - 音響信号符号化方法 - Google Patents

音響信号符号化方法

Info

Publication number
JP3095133B2
JP3095133B2 JP09040404A JP4040497A JP3095133B2 JP 3095133 B2 JP3095133 B2 JP 3095133B2 JP 09040404 A JP09040404 A JP 09040404A JP 4040497 A JP4040497 A JP 4040497A JP 3095133 B2 JP3095133 B2 JP 3095133B2
Authority
JP
Japan
Prior art keywords
filter
vector
codebook
input
fixed codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP09040404A
Other languages
English (en)
Other versions
JPH10242867A (ja
Inventor
仲 大室
一則 間野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP09040404A priority Critical patent/JP3095133B2/ja
Publication of JPH10242867A publication Critical patent/JPH10242867A/ja
Application granted granted Critical
Publication of JP3095133B2 publication Critical patent/JP3095133B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声,音楽など
の音響信号の、スペクトル包絡特性を表すフィルタを音
源ベクトルで駆動して音響信号を合成する予測符号化に
より、音響信号の信号系列を少ない情報量でディジタル
符号化する高能率音声符号化方法に関する。
【0002】
【従来の技術】ディジタル移動体通信において、電波を
効率的に利用したり、音声または音楽蓄積サービス等で
通信回線や記憶媒体を効率的に利用するために、高能率
音声符号化方法が用いられる。現在、音声を高能率に符
号化する方法として、原音声をフレーム(またはサブフ
レーム)と呼ばれる5〜50ms程度の一定間隔の区間
に分割し、その1フレームの音声を周波数スペクトルの
包絡特性を表す線形フィルタの特性と、そのフィルタを
駆動するための駆動音源信号との2つの情報に分離し、
それぞれを符号化する手法が提案されている。この手法
において、駆動音源信号を符号化する方法として、音声
のピッチ周期(基本周波数)に対応すると考えられる周
期成分と、それ以外の成分に分離して符号化する方法が
知られている。この駆動音源情報の符号化法の例とし
て、符号駆動線形予測符号化(Code-Excited Linear Pr
ediction: CELP)がある。上記技術の詳細について
は、文献 M.R. Schroeder and B.S. Atal,“Code-Excit
ed Linear Prediction(CELP):High Quality Spe
ech at Very Low Bit Rates ”,IEEE Proc.ICA
SSP-85, pp.937-940, 1985に記載されている。
【0003】図8に上記符号化方法の構成例を示す。入
力端子1−0に入力された音声xは、線形予測分析部
1−1において、入力音声の周波数スペクトル包絡特性
を表す線形予測パラメータaが計算される。得られた
線形予測パラメータaは線形予測パラメータ符号化部
1−2において、符号化されて線形予測パラメータ復号
部1−3に送られる。また、歪み計算に聴覚特性を考慮
するなど、入力音声のスペクトル情報を利用して歪み計
算を行う場合には、線形予測パラメータaは歪み計算
部1−6へも送られる。線形予測パラメータ復号部1−
3では、受け取った符号から合成フィルタ係数a^を
再生し、合成フィルタ1−5に送る。歪み計算に聴覚特
性を考慮する場合に、歪み計算部1−6において量子化
前の線形予測パラメータaを用いる代わりに、上記復
号された線形予測パラメータa^を歪み計算に使用す
ることもある。なお、線形予測分析の詳細および線形予
測パラメータの符号化例については、例えば古井貞煕著
“ディジタル音声処理”(東海大学出版会)に記載され
ている。ここで、線形予測分析部1−1、線形予測パラ
メータ符号化部1−2、線形予測パラメータ復号部1−
3および合成フィルタ1−5は非線形なものに置き換え
てもよい。
【0004】駆動音源ベクトル生成部1−4では、1フ
レーム分の長さの駆動音源ベクトル候補cを生成し、
合成フィルタ1−5に送る。図9に駆動音源ベクトル生
成部1−4の構成例を示す。適応符号帳2−1からは、
バッファに記憶された直前の過去の駆動音源ベクトル
(既に量子化された直前の1〜数フレーム分の駆動音源
ベクトル)c(t−1)を、ある周期に相当する長さ
で切り出し、その切り出したベクトルをフレームの長さ
になるまで繰り返すことによって、音声の周期成分に対
応する時系列ベクトルの候補va が出力される。上記
「ある周期」とは、歪み計算部1−6における歪みdが
小さくなるような周期が選択されるが、選択された周期
は、一般には音声のピッチ周期に相当することが多い。
固定符号帳2−2からは、音声の非周期成分に対応する
1フレーム分の長さの時系列符号ベクトルの候補vr
が出力される。固定符号帳2−2には入力音声とは独立
に符号化のためのビット数に応じてあらかじめ指定され
た数の候補ベクトルが記憶されている。適応符号帳2−
1および固定符号帳2−2から出力された時系列ベクト
ルの候補は、乗算部2−4,2−5において、それぞれ
重み符号帳2−3において作成された重みga , gr
乗算され、これら乗算結果は加算部2−6において加算
され、駆動音源ベクトルの候補cとなる。図9の構成
例において、適応符号帳2−1を用いないで、固定符号
帳2−2のみの構成としてもよく、子音部や背景雑音な
どのピッチ周期性の少ない信号を符号化するときには、
ビットを節約するために、適応符号帳2−1を用いない
構成にすることも多い。
【0005】図8の説明に戻って、合成フィルタ1−5
は、線形予測パラメータ復号部1−3の出力をフィルタ
の係数とする線形フィルタで、駆動音源ベクトル候補
cを入力として再生音声の候補yを出力する。合成
フィルタ1−5の次数すなわち線形予測分析の次数は、
一般に10〜16次程度が用いられることが多い。な
お、既に述べたように、合成フィルタ1−5は非線形な
フィルタでもよい。
【0006】歪み計算部1−6では、合成フィルタ1−
5の出力である再生音声の候補yと、入力音声xと
の歪みdを計算する。この歪みの計算は、例えば聴覚重
み付きなど、合成フィルタの係数a^または量子化し
ていない線形予測係数aを考慮にいれて行なうことが
多い。図11に、聴覚重みづきを考慮して歪みを計算す
る構成例を示した。聴覚重みづきは、量子化していない
線形予測パラメータaもしくは量子化された合成フィ
ルタ係数a^を用いた、聴覚重みフィルタの形で構成
される。合成フィルタ4−1から出力される再生音声候
補yは、聴覚重みフィルタ4−2を通され、これは、
同じく聴覚重みフィルタ4−3に通された入力音声との
間で、歪みdが計算される。ここで、聴覚重みフィルタ
4−2,4−3は通常同一のフィルタ係数を用いるた
め、聴覚重みフィルタ4−2,4−3は、距離計算部4
−4の後に1つのフィルタとして入れても等価である
が、処理量の点から、図11に示されるように、距離計
算部4−4の手前で2ケ所に分けて入れることが多い。
【0007】この合成重み計算部1−7について更に述
べると入力時系列音声ベクトルxは聴覚重みフィルタ
4−3を通り、ターゲット音声xw となって、距離計
算部4−4に送られる。一方、駆動音源ベクトル候補
cは、合成フィルタ4−1と聴覚重みフィルタ4−2
を通り、聴覚重み付き再生音声候補ベクトルyw とな
って、距離計算部4−4に送られる。距離計算部4−4
では、ターゲット音声ベクトルxw と再生音声候補ベ
クトルyw の間の距離を測定する。このときの距離尺
度には例えば、 d=‖xw −yw 2 (1) といった距離尺度を用いればよい。上記歪み尺度を最小
にするような駆動音源ベクトルが選択される。図9に示
したような駆動音源ベクトル生成の構成を用いる場合に
は、周期符号、固定符号、重み符号が決定される。な
お、聴覚重みフィルタ4−2,4−3は、人間の聴覚特
性を利用して再生音声の雑音感を低減するような歪み計
算をするためのフィルタで、必ずしも用いる必要はな
い。
【0008】このとき、入力時系列音声ベクトルx
は、入力音声信号そのままの場合もあるが、一般には、
前サブフレームからの影響を差し引いた、時系列信号で
あることが多い。また、図9に示したような駆動音源ベ
クトル生成の構成を用いる場合に、周期符号、固定符
号、重み符号のすべての可能な組み合わせの中から、最
適な組み合わせを1つ選択することは演算処理量の点か
ら難しく、例えば周期符号、固定符号、重み符号の順に
順次決定するか、途中で適宜候補を絞りながら順次探索
し、最後に準最適な組み合わせに決定することが多い。
このように順次決定または順次候補を残しながら探索す
る場合には、先に選択された符号ベクトル(例えば適応
符号ベクトル)に起因する合成成分を入力音声から差し
引き、駆動音源ベクトル候補cには、これから決定し
たいベクトル成分のみ(例えば固定符号ベクトルのみ)
を入力して歪み計算をする場合も多い。
【0009】図8において符号帳検索制御部1−8では
各再生音声候補yと入力音声xとの歪みdが最小と
なるような駆動音源符号を選択し、そのフレームにおけ
る駆動音源ベクトルを決定する。なお、図9に示される
適応符号帳2−1、固定符号帳2−2、重み符号帳2−
3よりなる構成とする場合には、周期符号、固定符号お
よび重み符号を選択し、これらを駆動音源符号とする。
【0010】符号帳検索制御部1−8において決定され
た駆動音源符号(周期符号、雑音符号、重み符号)と、
線形予測パラメータ符号化部1−2の出力である線形予
測パラメータ符号は、符号送出部1−9に送られ、利用
の形態に応じて記憶装置に記憶されるか、または通信路
を介して受信側へ送られる。図10に、上記符号化方法
に対応する復号方法の構成例を示した。伝送路または記
憶媒体から入力端子3−0に受信された符号のうち、線
形予測パラメータ符号は線形予測パラメータ復号部3−
2において合成フィルタ係数に復号され、合成フィルタ
3−4および、必要に応じて後処理部3−5に送られ
る。駆動音源符号は、駆動音源ベクトル生成部3−3に
送られ、符号に対応する音源ベクトルが生成される。な
お、駆動音源ベクトル生成部3−3の構成は、図8に示
された符号化方法の駆動音源ベクトル生成部1−4に対
応する構成となる。合成フィルタ3−4は、駆動音源ベ
クトルを入力として、音声を再生する。後処理部3−5
は、再生された音声の雑音感を聴覚的に低下させるよう
な処理(ポストフィルタリングとも呼ばれる)を行う
が、後処理部3−5は処理量削減等の関係から用いられ
ないことも多い。
【0011】
【発明が解決しようとする課題】CELP方式において
問題となるのは、駆動音源ベクトル候補の選択をするた
めの歪み計算に、非常に多くの演算処理が必要になるこ
とである。この問題に対して、Algebraic Code-Excited
Linear Prediction(ACELP)という方式が提案さ
れている。この方式は、固定符号帳を、フレーム長のベ
クトルパターンとして蓄えるのではなく、高さが1のパ
ルスを、フレーム内に数本、例えば、40サンプルのフ
レームまたはサブフレームに対して、4本、適当な位置
に立てることによって、固定符号ベクトルとする方式
で、この駆動音源方式の採用と、歪み計算において演算
順序を工夫することによって、従来の方式に比べて演算
処理を大幅に減らすことができる。なお、ACELP方
式の詳細は、例えば、文献,R. Salami, C. Laflamme,
and J-P. Adoul, “ 8 kbit/s ACELP Coding of
Speech with 10 ms Speech-Frame: a Candidate for C
CITTStandardization ”,IEEE Proc. ICASSP-
94, pp.II-97に記載されている。また、同様の処理概念
にもとづき、より高品質かつより低演算量の方法とし
て、この発明者等が既に出願した「音響信号符号化方法
及び音響信号復号化方法」(特願平7−150550)
がある。この方式では、固定符号ベクトルとして、高さ
が1のパルスのかわりに、隣接する2〜数サンプルを単
位とし、高さ情報を持つパルスパタンをフレーム内に配
置する手法を用いることによって、より低演算量と高品
質を両立している。
【0012】しかしながら、これらの方式においては、
歪み計算に合成フィルタまたは聴覚重みづきフィルタ、
またはそれらを合わせたフィルタを、インパルス応答ま
たはFIR型のフィルタで表現することが多いが、フレ
ームまたはサブフレームが長くなると、IIR型フィル
タを用いる場合と等価な結果を得るためのFIRフィル
タのタップ数が長くなり、演算量が従来方式に比べて逆
に増加してしまうばかりでなく、歪み計算において計算
の途中結果を格納するために、著しく大量のメモリが必
要になるなどの問題がある。したがって、上記方法をそ
のまま、一般にサブフレームを長くする低ビットレート
音声符号化に利用することは難しい。
【0013】一方図11の構成において、駆動音源ベク
トル候補cを合成フィルタ4−1と聴覚重みづきフィ
ルタ4−2に通す操作を、高速に実行するためには、こ
れらの2つのフィルタを合わせて、等価なフィルタ特性
を持つ1つの聴覚重み付き合成フィルタとするとよい。
等価な1つのフィルタとするには、例えば合成フィルタ
4−1の入力から聴覚重みフィルタ4−2の出力までの
インパルス応答をフィルタ係数とすFIRフィルタで表
現することができる。
【0014】図12は上記1つの等価なフィルタで表現
する構成において、更に高速な歪み計算を実現する構成
である。例えば、FIRフィルタ表現された聴覚重み付
き合成しフィルタを、有限タップで打ち切ったり、短い
タップ数のARフィルタで近似したりして、あるいはF
IRフィルタのタップ数を、IIRフィルタの場合と等
価な結果を得るのに必要なタップ数よりも減らすなどの
方法による厳密にはフィルタ特性の一致しない聴覚重み
付き合成近似フィルタ5−2で代用する。これによって
合成歪み計算における演算処理量およびメモリ量を減ら
すことができる。しかしながら、図12の構成を用いた
場合、近似フィルタ5−2のフィルタ特性と、元の合成
フィルタ4−1および聴覚重み付きフィルタ4−2の特
性との差が大きくなると、近似誤差によって適当な駆動
音源符号が選択されなくなり、再生音声の著しい品質劣
化につながるため、事実上、サブフレームを長くとるこ
と、すなわちビットレートを低くすることは不可能であ
った。
【0015】この発明の目的は、低いビットレート、か
つ安価なプロセッサで許容される範囲内の少ないメモリ
量、少ない演算量で、高品質な再生音声が得られるよう
な、音声または音楽などの音響信号をディジタル符号化
する方法を提供することにある。
【0016】
【課題を解決するための手段】この発明では、FIR型
合成フィルタのタップを途中で打ち切るなどの高速に歪
み計算ができるように簡略化した近似フィルタを合成歪
み計算に用い、この近似フィルタで表現したことにもと
づき生じる近似誤差を、入力音声に付加し、これを符号
帳探索時のターゲットベクトルとする。
【0017】この構成により近似による影響を歪み計算
において、相殺し、サブフレームの長い場合でも、非常
に少ないメモリ量、処理量で、高品質な低ビットレート
符号化方法を実現する。
【0018】
【発明の実施の形態】この発明の実施例の前提となる構
を図1に示す。入力端子6−0よりの入力音声x
は、量子化された(復号された)合成フィルタ係数a
^による合成フィルタの逆フィルタ(合成逆フィルタ)
6−3を通り、理想の(量子化しない)駆動音源ベクト
ルrに変換される。rは、図11において駆動音源
ベクトル候補cを入力とする合成フィルタ4−1に通
したときに、入力音声xとの歪みがゼロになる理想の
駆動音源ベクトルである。理想駆動音源ベクトルr
は、聴覚重み付き合成近似フィルタ5−2と同じ特性の
聴覚重み付き合成近似フィルタ6−4を通って変形ター
ゲット音声ベクトルx′w となる。この時、聴覚重み
付き合成フィルタ5−2で生じる近似誤差と同様の近似
誤差が変形ターゲット音声ベクトルx′w に付加され
たものとなる。距離計算部4−4では、聴覚重み付き合
成近似フィルタ5−2の出力である、近似誤差を含んだ
聴覚重み付き再生音声候補y′w と、変形ターゲット
音声ベクトルx′w との間の距離を計算する。従って
この距離計算においては聴覚重み付き合成近似フィルタ
5−2で生じる近似誤差は、聴覚重み付き合成近似フィ
ルタ6−4で付加された近似誤差と、距離計算の際に相
殺され、歪みd(距離)を高い精度で計算できる。
【0019】図2は、図1におけるこの発明による方法
において、合成近似フィルタ5−2,6−4を具体的に
有限タップ長FIRフィルタ7−2,7−4の形で表現
したものである。このときのタップ数は、サブフレーム
長と同じ点数のタップ数を用いると、近似計算を用いな
い従来の方法と符号化結果が一致するが、演算処理量は
多くなる。一方、タップ数を過去のサンプル値を用いな
い1タップ(これを0タップと呼ぶこともある)に設定
すると、駆動音源ベクトル候補cと理想駆動音源ベク
トルrとの間の歪みを、駆動音源レベルで測定する符
号化方法になり、演算処理量は極めて少なくなるが、十
分な符号化品質が得られない。タップ数は符号化品質と
演算処理量のバランスを考慮して、1からサブフレーム
長(サブフレームのサンプル数)の範囲で決定すること
になるが、この発明による方法では、サブフレームが例
えば80サンプルのときに、タップ数を2〜6タップ程
度まで減らしても、有限タップ長FIR型聴覚重み付き
合成フィルタ7−2で生じる近似誤差が、ターゲット音
声xに対しても有限タップ長FIR型聴覚重み付き合
成フィルタ7−4に付加されるため、実際の音声を符号
化したときの信号対雑音比(SNR)、聴覚的品質と
も、ほとんど劣化しないことを確認している。
【0020】図3は、駆動音源ベクトル生成部1−4の
構成例において、固定符号ベクトル候補vr をピッチ
周期化して用いる構成例である。前記ACELP方式
や、「音響信号符号化方法及び音響信号復号化方法」
(特願平7−150550)でも図3に示す構成が用い
られている。ピッチ周期化部8−7には、適応符号帳に
入力される周期符号と同一の周期符号が入力され、周期
符号に対応する周期で固定符号帳2−2の出力vr
周期化する。具体的な周期化操作は、固定符号ベクトル
r に周期符号に対応するタップ位置のコムフィルタ
(櫛形フィルタ)をかけることが多い。またタップ位置
は、整数サンプル位置でもよいし、非整数サンプル位置
のコムフィルタを、アップサンプリングの手法を用いて
実現してもよい。
【0021】図3の構成において、通常、適応符号帳8
−1を探索するときには、固定符号帳2−2がないもの
として最適な周期符号(または、歪みが小さくなる複数
個の周期符号候補)を探索し、固定符号帳2−2を探索
するときには、適応符号ベクトルを合成して得られる適
応符号帳成分ya を、あらかじめ入力音声xから除
いたものを入力xr として、固定符号ベクトルvr
を合成して得られる成分yrpとxr との間の歪みが
最小になるような固定符号を探索するという手法が用い
られる。この手法を用いる場合の、固定符号ベクトル合
成歪み計算方法の構成例を図4に示す。図3におけるピ
ッチ周期化部8−7は、乗算部2−5と順序を入れ替え
ることができるため、図4に示すように、乗算部2−5
と合成フィルタ4−1の間にピッチ周期化部8−4を入
れることができる。固定符号ベクトルvr は乗算部2
−5に送られる。乗算部2−5ではvr に重みgr
かけて駆動音源ベクトル候補cr を生成し、ピッチ周
期化部8−4に送る。cr はピッチ周期化された後、
合成フィルタ4−1を通って再生音声候補yrpとな
り、聴覚重みフィルタ4−2を通って、距離計算部4−
4に送られる。このとき、ピッチ周期化部8−4、合成
フィルタ4−1、聴覚重みフィルタ4−2は3つのフィ
ルタ特性を合成した特性を持つ1つのフィルタで表現す
ると、探索にかかる演算処理量を削減することできる。
しかしながら、上記8−4,4−1,4−2の3つのフ
ィルタの合成特性を持つフィルタをFIRフィルタで表
現した場合、合成フィルタ4−1や聴覚重みフィルタ
−2の特性を持つFIRフィルタと違って、ピッチ周期
に相当すると考えられる周期のタップ位置付近に大きな
値の係数を持つため、図2に示す構成例のように、短い
タップ数でフィルタ係数を打ち切ってさらに高速な探索
をすることができない。
【0022】この問題を解決し、ピッチ周期化のある場
合でも高速に歪みを計算するこの発明の実施例を図5に
示す。図5の構成例では、図1に示す構成例と同様に、
図4における合成フィルタ4−1と聴覚重みフィルタ4
−2の特性を合わせ持つフィルタを、聴覚重み付き合成
近似フィルタ5−2に置き換える。図1の構成例と同様
に、近似によって生じる歪みを入力側との間で相殺でき
るように、入力xrは合成逆フィルタ6−3を通し、
フィルタ5−2と同じ特性の聴覚重み付き合成近似フィ
ルタ6−4を通すが、この構成例では、図4におけるピ
ッチ周期化フィルタ8−4の逆フィルタ(ピッチの周期
性を取り除くフィルタ)10−4を、音声xの入力側
に入れる。この構成において、聴覚重み付き合成近似フ
ィルタ5−2,6−4を、図2に示す構成例と同様に、
有限タップ長FIR形聴覚重み付き合成フィルタで置き
換えれば、非常に高速に符号帳の探索をすることができ
る。このときのFIRフィルタのタップ長は、図2の構
成例と同様に、過去のサンプル値を用いない1タップ
(0タップと呼ぶこともある)から、サブフレーム長ま
での間で、符号化品質と演算処理量とのバランスを考慮
して決められるが、この発明による方法では、サブフレ
ームが80点のときに、タップ数を2〜6タップ程度ま
で減らしても、実際の音声を符号化したときの、信号対
雑音比(SNR)、聴覚的品質とも、ほとんど劣化しな
いことを確認している。なお、図5の構成例において、
合成逆フィルタ6−3、ピッチ周期化逆フィルタ10−
4、聴覚重み付き合成近似フィルタ6−4が、すべて線
形フィルタのときには、それらの順序を交換してもよ
い。
【0023】図6は、この発明による方法において、F
IRフィルタを有限長で打ち切っても符号化音の品質劣
化が非常に少ない利点を用いて、効率的に歪み計算を実
施し、非常に高速な音声符号化を実現する構成例を示し
たものである。有限タップ長FIR型聴覚重み付き合成
フィルタ係数算出部11−1では、合成フィルタ係数
a^と量子化していない線形予測パラメータaか
ら、合成フィルタと聴覚重み付きフィルタを合わせた特
性を持つ、聴覚重み付き合成フィルタをFIR型で実現
したときのフィルタ係数を算出し、このフィルタ係数を
有限タップ長で打ち切った係数βを出力する。インパ
ルス応答行列生成部11−2では、下記式(2)に示す
ように、FIRフィルタ係数を要素とする三角行列を生
成する。ここで、Nはサブフレームのサンプル数を表
す。式(2)において、係数βは有限長で打ち切るた
め、例えば打ち切り次数をkとすると、βk からβN-1
までは0であって、式(3)のような行列となる。
【0024】 このとき上記行列の要素が0の部分は、メモリなどに記
憶しておく必要がない。相関行列生成部11−3では、
上記インパルス応答行列Hから、H tHを計算す
る。このとき、係数のβk からβN-1 までは0であるの
で、N×Nの行列計算をする必要がなく、k×kの行列
計算でH tHを求めることができる。例えば、k
は、2から6の値に設定しても符号化音の品質がほとん
ど劣化しないため、N=80のときに、80×80の行
列計算に比べて、例えば5×5の行列計算は著しい演算
処理量の削減となる。適応符号帳成分を除いた入力音声
r は、合成逆フィルタ6−3を通り、ピッチ周期化
逆フィルタ10−4を通って、畳み込み部11−6に入
力される。畳み込み部11−6では、ピッチ周期化逆フ
ィルタ10−4の出力rp を、係数βのFIRフィ
ルタを通して、タップ打ち切り歪みを含むターゲット音
声x′rpを求め、x′rpとH行列を、時間軸反転
畳み込み操作もしくは行列演算によって、x′rp t
H(At は行列Aの転置を示す)を計算する。このと
きも打ち切り次数kを小さくとっていれば、非常に高速
に計算を行うことができる。畳み込み部11−6は、別
の手法を用いることもでき、相関行列計算部11−3の
出力H tHと、ピッチ逆周期化フィルタ11−5の
出力rp から、行列演算によって、rp t (H t
H)を計算することもできる。このとき、上記x′
rp t Hとrp t (H tH)は値が一致する。最
終距離尺度計算部11−7では駆動音源ベクトル候補の
固定符号帳成分cr と、H tH,x′rp t
(またはrp t tH)から、距離尺度 d′=(x′rp t Hcr 2 /(cr t tHcr )(4) を計算する。d′は符号帳検索制御部に送られ、距離尺
度d′が最大になる(歪み尺度dが最小になることと等
価な)符号が選択される。
【0025】上述において、合成近似フィルタとしては
必ずしも聴覚重み付き特性を与えたものでなくてもよ
い。なお特許請求の範囲において「フレーム」はフレー
ムと、これを分割したサブフレームとの何れでもよい。
【0026】
【発明の効果】この発明の効果を確認するため下記の実
験を行った。4.6kbit/sのDual−Pulse
CS−CELPを構成した。フレーム長は20ms、サ
ブフレーム長は10ms(80点)とし、LPCの量子
化はフレーム毎、その他はサブフレーム毎に行う。ビッ
ト配分はフレーム当り、LSP22ビット、適応符号8
×2ビット、Dual−Pulse符号20×2利得符
号7×2(計92(4.6kbit/s))とし、Dual
Pulseは、1サブフレームあたり3組配置し、位
置11ビット、パタン6ビット、正負符号3ビットを割
り当てる。
【0027】上記符号化器に実音声データを入力して、
この発明方法の性能を調べた。音声データは、8kHz
サンプリングで、ITU−T G.712帯域のフィル
タをかけたものを用いた。図7に、FIRフィルタのタ
ップを有限長で打ち切ったときの、打ち切りの次数とW
SNRの関係を示した。WSNRは、最終的な合成音と
入力音声との間で測定しているため、打ち切りのタップ
数にかかわらず同一の尺度である。図中の方法(1)
は、歪みを最小化するターゲット音声を従来の方法で求
め、符号帳探索のためのフィルタのタップのみ打ち切っ
た場合である。この場合は、20タップ以下になると急
速に品質が劣化している。方法(2)はピッチ周期化逆
フィルタを用いない図2に示したこの発明方法を適用し
た場合である。この方法を用いると、タップ数が2程度
まではWSNRにほとんど変化がない。方法(3)はピ
ッチ周期化逆フィルタを用いる図6に示したこの発明方
法を適用した場合である。4.6kbit/sのDual−
Pulse CS−CELPは、Dual Pulse
をピッチ周期化して駆動音源に用いるため、方法(3)
を用いることによって非常に高速な符号化を実現でき
る。この場合の品質を方法(2)の場合と比較すると、
全体的に0.3dB程度低下しているものの、方法
(2)の場合と同様に、タップ数を減らしてもWSNR
はあまり低下しなかった。
【0028】聴感上も6タップ程度使えば、全タップ使
用する場合に比べてほとんど劣化が感じられない。ま
た、方法(3)は方法(2)に比べてわずかに劣化が感
じられる程度である。以上述べたようにこの発明によれ
ば、非常に少ないタップ数で打ち切り、高速な符号帳探
索、つまり高速な音声符号化を実現した場合でも、品質
の劣化が非常に少ないことが確認された。
【図面の簡単な説明】
【図1】この発明の前提となる近似誤差を含んだ聴覚重
み付き再生音声候補と、同じく近似誤差を含んだ変形タ
ーゲット音声との間の距離を計算する方法の機能構成を
示す図。
【図2】図1に示した方法において、聴覚重み付き合成
近似フィルタを有限タップ長FIRフィルタの形で表現
する例を示す機能構成図。
【図3】駆動音源ベクトル生成部の構成において、固定
符号ベクトル候補をピッチ周期化して用いる機能構成例
を示す図。
【図4】図3の構成を用いる場合の、固定符号ベクトル
合成歪み計算方法の機能構成例を示す図。
【図5】図3に示すピッチ周期化のある場合に、この発
明を適用し、ピッチ周期化逆フィルタを入力側に入れた
歪み計算方法の機能構成を示す図。
【図6】この発明方法で、FIRフィルタを有限長で打
ち切って効率的に歪み計算を実施し、非常に高速な音声
符号化を実現する方法の機能構成例を示す図。
【図7】この発明を実際の音声符号化に適用した場合
の、FIRフィルタタップの打ち切り次数とWNSRの
関係を示すグラフ。
【図8】音声の符号駆動線形予測符号化(Code-Excited
Linear Prediction:CELP)の機能構成例を示す
図。
【図9】図8における駆動音源ベクトル生成部の機能構
成例を示す図。
【図10】音声の符号駆動線形予測符号化(Code-Excit
ed Linear Prediction:CELP)に対応する復号方法
の機能構成例を示す図。
【図11】聴覚重みづきを考慮して歪みを計算する機能
構成例を示す図。
【図12】従来の高速歪み計算方法の例で、聴覚重み付
き合成フィルタの近似フィルタを合成歪み計算に用いる
機能構成例を示す図。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−248996(JP,A) 特表 平7−506202(JP,A) 三樹ら「PSI−CELP音声符号化 の基本アルゴリズム」NTT R&D Vol.43 No.4,pp363−372 (1994) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 21/06 H03M 7/30 H03M 7/42 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 適応符号帳ベクトルが記録された適応符
    号帳と固定符号帳ベクトルが記録された固定符号帳とを
    用い、 固定符号帳から取り出した固定符号帳ベクトル候補に基
    づく駆動音源ベクトルと適応符号帳成分が除かれた入力
    音響信号との距離尺度を最大とする前記固定符号帳ベク
    トルを選択する音響信号符号化方法において、 入力音響信号から線形予測パラメータを算出する過程
    と、 前記線形予測パラメータを量子化して合成フィルタ係数
    を算出する過程と、 前記合成フィルタ係数を有限長のインパルス応答に近似
    する過程と、 前記インパルス応答を要素とする三角行列で表現される
    インパルス応答行列を生成する過程と、 前記インパルス応答行列と前記インパルス応答行列の転
    置行列との積からなる相関行列を計算する過程と、 前記適応符号帳成分が除かれた入力音響信号を前記合成
    フィルタ係数の逆フィルタ特性を有する合成逆フィルタ
    を通過させて理想駆動音源ベクトルに変換する過程と、 前記理想駆動音源ベクトルに前記インパルス応答係数を
    畳み込んでターゲット音声ベクトルを求め、さらに前記
    インパルス応答行列を乗算する畳み込み過程と、 前記インパルス応答行列が乗算されたターゲット音声ベ
    クトルと固定符号帳ベクトル候補との内積を、前記固定
    符号帳ベクトル候補と前記相関行列と前記固定符号帳ベ
    クトル候補の転置ベクトルとの積で除算して距離尺度を
    計算する過程と、 を有することを特徴とする音響信号符号化方法。
  2. 【請求項2】 前記合成フィルタのタップ長を2タップ
    以上6タップ以下とすることを特徴とする、請求項1記
    載の音響信号符号化方法。
  3. 【請求項3】 前記固定符号帳から取り出した固定符号
    帳ベクトル候補を、適応符号帳に入力される周期符号に
    対応する周期で周期化フィルタにより周期化して前記駆
    動音源ベクトルを得る過程と、 前記周期化フィルタの逆特性を有する周期化逆フィルタ
    に、前記適応符号帳成分が除かれた前記入力音声もしく
    は前記理想駆動音源ベクトルもしくはターゲット音声ベ
    クトルのうち何れかを通過させる過程を有する、 請求項1または請求項2記載の音響信号符号化方法。
  4. 【請求項4】 前記合成フィルタ係数と前記線形予測パ
    ラメータとから前記有限長で打ち切られた聴覚重み付き
    合成フィルタ係数を算出する過程を有し、 前記聴覚重み付き合成フィルタ係数が前記合成フィルタ
    係数として用いられることを特徴とする、 請求項1乃至3のうち何れかに記載の音響信号符号化方
    法。
  5. 【請求項5】 前記相関行列を計算してメモリに展開し
    て蓄積され、前記距離尺度計算に前記メモリに蓄積され
    た相関行列の値を参照して行うことを特徴とする請求項
    1乃至4の何れかに記載の音響信号符号化方法。
JP09040404A 1997-02-25 1997-02-25 音響信号符号化方法 Expired - Lifetime JP3095133B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09040404A JP3095133B2 (ja) 1997-02-25 1997-02-25 音響信号符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09040404A JP3095133B2 (ja) 1997-02-25 1997-02-25 音響信号符号化方法

Publications (2)

Publication Number Publication Date
JPH10242867A JPH10242867A (ja) 1998-09-11
JP3095133B2 true JP3095133B2 (ja) 2000-10-03

Family

ID=12579736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09040404A Expired - Lifetime JP3095133B2 (ja) 1997-02-25 1997-02-25 音響信号符号化方法

Country Status (1)

Country Link
JP (1) JP3095133B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7283961B2 (en) 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
EP1308927B9 (en) 2000-08-09 2009-02-25 Sony Corporation Voice data processing device and processing method
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JP4517262B2 (ja) * 2000-11-14 2010-08-04 ソニー株式会社 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JP4857467B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4857468B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
US8200483B2 (en) 2006-12-15 2012-06-12 Panasonic Corporation Adaptive sound source vector quantization device, adaptive sound source vector inverse quantization device, and method thereof
EP2101320B1 (en) * 2006-12-15 2014-09-03 Panasonic Corporation Adaptive excitation vector quantization apparatus and adaptive excitation vector quantization method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
三樹ら「PSI−CELP音声符号化の基本アルゴリズム」NTT R&D Vol.43 No.4,pp363−372(1994)

Also Published As

Publication number Publication date
JPH10242867A (ja) 1998-09-11

Similar Documents

Publication Publication Date Title
JP3481251B2 (ja) 代数的符号励振線形予測音声符号化方法
JP3042886B2 (ja) ベクトル量子化器の方法および装置
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JPH0990995A (ja) 音声符号化装置
JPH04270400A (ja) 音声符号化方式
JP3180786B2 (ja) 音声符号化方法及び音声符号化装置
US6094630A (en) Sequential searching speech coding device
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3095133B2 (ja) 音響信号符号化方法
JP3335841B2 (ja) 信号符号化装置
JPH05216500A (ja) 音声符号化装置
JP3174733B2 (ja) Celp型音声復号化装置、およびcelp型音声復号化方法
JP3148778B2 (ja) 音声の符号化方法
JP3299099B2 (ja) 音声符号化装置
JP3153075B2 (ja) 音声符号化装置
JP3192999B2 (ja) 音声符号化方法および音声符号化方法
JPH08185199A (ja) 音声符号化装置
JP3192051B2 (ja) 音声符号化装置
JP3089967B2 (ja) 音声符号化装置
JP2002221998A (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音声符号化、復号化方法、装置及びプログラム
JP3092436B2 (ja) 音声符号化装置
JP3024467B2 (ja) 音声符号化装置
JP2000029499A (ja) 音声符号化装置ならびに音声符号化復号化装置
JP2808841B2 (ja) 音声符号化方式
JP3144244B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080804

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080804

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090804

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090804

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100804

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100804

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110804

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120804

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130804

Year of fee payment: 13

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term