JPH01155400A

JPH01155400A - 音声符号化方式

Info

Publication number: JPH01155400A
Application number: JP62315621A
Authority: JP
Inventors: Yoshiaki Asakawa; 浅川　吉章; Hiroshi Ichikawa; 市川　熹; Kazuhiro Kondo; 和弘近藤; Toshiro Suzuki; 鈴木　俊郎
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1987-12-14
Filing date: 1987-12-14
Publication date: 1989-06-19
Anticipated expiration: 2013-01-28
Also published as: JP2707564B2; US5119424A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声符号化方式に関し、特に音声情報を８Ｋ
ｂｐｓ前後に圧縮する際に符号化音声の品質を向上させ
るための方式に関するものである。

〔従来の技術〕

音声信号を広帯域ケーブルで伝送するためには。

音声信号をサンプリングし、量子化して、２進のディジ
タル符号に変換することにより、ＰＣＭ伝送する。

一方、専用ディジタル回線を用いて通信ネットワークを
構築する場合、通信コストの低減は非常に重要な課題で
あり、６０　Ｋｂｐｓにも及ぶ音声信号の情報量は多過
ぎるため、そのままでは伝送できない。そこで、伝送の
ための音声信号の情報圧縮（つまり低ビツトレート符号
化）が必要となった。

音声信号を８ＫｂｐｓＭ後で圧縮する音声符号′叱方式
としては、音声をスペクトル包絡情報と音源情報とに分
離して、各々を符号化する方法が知られている。その中
で、音源情報を単一パルス列と白色雑音でモデル化した
ものが、いわゆるＰＡＲＣＯＲ（Ｐａｒｔｉａｌ　　Ａ
ｕｔｏｃｏｒｒｅｌａｔｉｏｎ：偏自己相関）法であり
、この方法では、低ビツトレートで符号化できるが、そ
の反面、品質の劣化が大きい。これに対して、音源を複
数のパルス列で表現する方式として、マルチパルス法（
例えば、小浜、他「マルチパルス駆動形音声符号化法の
品質改善」日本音響学会音声研究会資料Ｓ　８３−７８
　（１９８４，１）参照）や、あるいは残差圧縮法（浅
用、他「残差情報を利用した音声合成法の検討」日本音
響学会講演論文集３−１−７（昭和５９．１０）参照）
等がある。

残差圧縮法としては、例えば特開昭６１−２９６３９８
号公報に記載された方法が提案されており、また特願昭
６０−２４１４１９号、特願昭６１−３５１４８号の各
明細書にも記載されている。

これらの方式では、音源の表現が精密化する分だけ、Ｐ
ＡＲＣＯＲ法に比べて品質が向上している。

（発明が解決しようとする問題点〕前述の従来技術においては、音源である複数のパルス列
を、フレームごとに独立して一定の基準で生成する。こ
こで、フレームとは、音声を分析する時間単位であって
、通常は２０　ｍ　ｓ程度に設定される。

ところで、音声波形は、サンプリングされてサンプル値
Ｘ□の系列に変換されているものとする。

現在をｘｔとし、それから過去にさかのぼる２個のサン
プル値を（Ｘｔ−ｉ）　、（ｉ　＝　１１　　・・・、
ｐ）とする。ここで、音声波形は近似的に過去の２個の
サンプルから予測できると仮定する。予測の中で最も簡
単なものは線形予測であるから、過去のサンプル値の各
々にある一定の係数を乗じて加え合わせたもので、現在
の値が近似されるもと考える。このとき、現在点しての
実現値Ｘ、と予測値ｙ、との差を、予測誤差εとする。

この予測誤差εを、予測残差または単に残差と呼ぶ。音
声波形の予測残差波形は、２種類の波形の和と考えられ
る。その１つは、いわゆる誤差成分であり、その振幅は
余り大きくなく、ランダムな雑音波形に近い。また、他
の１つは、入力に声帯振動によるパルスが加わったとき
の誤差であって、予測が大きく狂い、振幅の大きな残差
波形とな′る。この残差成分は、音源の周期性に対応し
て、繰り返し周期的に現われる。

音声は、周期性を有する区間（有声音）と、周期性が顕
著でない区間（無声音）とに大別されるので、それに対
応して、予測残差波形も、有声音部では周期性を有して
いる。

一方、マルチパルス法や残差圧縮法において生成される
パルス列は、残差の近似とみなすことができるので、有
声音部では周期性を有するはずである。ところが、これ
らのパルス列は前後のフレームとは独立して生成される
ために、パルス列の相対的な位置関係がフレームごとに
ずれてしまい、周期性が乱れる場合がある。

このようなパルス列を音源として音声を合成すると、「
ゴロゴロ」という音質劣化が生じるという問題があった
。

本発明の目的は、このような従来の問題を改善し、マル
チパルス法や残差圧縮法で生成されるパルス列に対して
、フレームごとの周期性の乱れによる音質の劣化を防止
することができる音声符号化方式を提供することにある
。

〔問題点を解決するための手段〕

上記目的を達成するため、本発明の音声符号化方式は、
有声フレームが無声フレームから切り替わった直後か、
有声フレームが連続したか、あるいは無声フレームであ
るかのいずれかを判定する手段と、上記無声フレームか
ら有声フレームに切り替わった直後に、音源パルスを生
成する第１の音源パルス生成手段と、上記有声フレーム
が連続するときに、音源パルスを生成する第２の音源パ
ルス生成手段と、上記無声フレームのときに、音源パル
スを生成する第３の音源パルス生成手段とを具備するこ
とに特徴がある。

〔作　　用〕

本発明においては、最初に生成されたパルス列を基準と
して、ピッチ周期により次のフレームのパルス列の位置
を推定し、その推定された位置の近傍で新たなパルス列
を生成し、周期性を保持する。すなわち、有声音におけ
る音声の周期は、声の高さであるピッチ周波数の逆数で
あるピッチ周期に対応している。声の高さの変化は比較
的ゆるやかであるから、１フレームの中ではほぼ一定と
みなすことができる。そこで、最初の基準となるフレー
ム、例えば、無声音から有声音に切り替わった最初のフ
レームでは、従来技術により一定の基準で音源パルス列
を生成した後、順次、生成された音源パルス列を基準に
次のフレームにおける音源パルス列の位置を推定して、
音源パルス列を生成する方法を用いる。

マルチパルス法や残差圧縮法では、音源パルス数が少な
いので、一般に生成される音源パルス列はピッチ周期ご
とに一塊のまとまったものとなる。

従って、フレームの最後のピッチ周期における音源パル
ス列を基準として、ピッチ周期だけ時間軸方向に進めた
位置を次のフレームの先頭のパルス列の位置とするので
ある。このようにすれば、２フレ一ム間でのパルス列の
周期性が保持される。

次フレームにおいては、この位置を基準として、この位
置の近傍に最初の音源パルス列を生成する。

それにより、フレーム間での周期性の乱れは無くなり、
音質の劣化も防止でき、かつパルス列生成の基準に基づ
いた最適な音源パルス列が得られることになる。

〔実施例〕

以下、本発明の実施例を、図面により詳細に説明する。

第１図は、本発明の音声符号化方式を残差圧縮法を用い
た音声符号化装置（音声Ｃ０ＤＥＣ）に適用した場合の
ブロック構成図であって、（ａ）が符号化部であり、（
ｂ）が復号化部である。

本発明の符号化部は、第１図（ａ）に示すように、ディ
ジタル音声信号を格納するバッファメモリ１と、線形予
測を行う線形予測回路３と、パラメータ４を用いて制御
される逆フィルタ５と、残差相関法等を用いてピッチを
抽出するピッチ抽出向路７と、有声無声判定回路９と、
有声無声判定結果に応じて音源パルスを生成する音源生
成部１１と、量子化符号化回路１３とを具備している。

また、本発明の復号化部は、第１図（ｂ）に示すように
、入力信号を４種のパラメータに分離する復号回路１６
と、復号化されたスペクトルパラメータを格納するバッ
ファメモリ１９と、ピッチ周期と有声無声判定結果と音
源情報を入力として、音源パルスを再生する音源パルス
再生回路１７と、音源パルス再生回路１７での遅延を補
正して、これを係数とする合成フィルタ２０とを具備し
ている。

第１図（、）において、符号化時には、ディジタル化さ
れた音声信号は、バッファメモリ１に１フレ一ム分格納
され、よく知られている線形予測回路３により、スペク
トル包絡を表わすパラメータ（例えば、偏自己相関係数
）４に変換される。次に、このパラメータ４を係数に用
いて逆フィルタ５を構成し、これに音声信号２を入力す
ることにより。

残差信号６を得る。ピッチ抽出回路７は、残差相関法や
ＡＭＤＦ　（Ａｖｅｒａｇｅ　　Ｍａｇｎｉｔｕｄｅ　
　Ｄｉｆｆｅｒｅｎｔｉａｌ　　Ｆ　ｕｎｃｔｉｏｎ）
法等のよく知られた手法を用いており、残差信号６を入
力としてフレームのピッチ周期８を抽出する。有声無声
判定回路９は、そのフレームが有声フレームであるか無
声フレームであるかの判定結果１０ａ、および無声フレ
ームから有声フレームに切り替わったことを示す信号１
０ｂを出力する。音源生成部１１は、本発明により新た
に設けられたものであって、有声無声判定結果１０ａお
よび切り替え信号１０ｂに応じて音源パルスを生成し、
その情報１２を出力する。

量子化符号化回路１３は、スペクトルパラメータ４とピ
ッチ周期８と有声無声判定結果１０ａと音源情報１２と
を受は取り、所定のビット数に量子化して、所定の書式
に変換された結果１４をディジタル回線１５に送出する
。

第１図（ｂ）において、復号化時には、ディジタル回線
１５から受信されたディジタル・データ１４が復号回路
１６に入力されると、（ａ）に示す４種のパラメータ（
ピッチ周期８′、音源情報１２′。

有声無声判定結果ＩＱａ’　、スペクトルパラ３．−タ
４′）に分離される。上記４種のパラメータのうちの３
種のパラメータ（復号化されたピッチ周期８′、有声無
声判定結果１０ａ’、音源情報１２′）を入力とする音
源パルス再生回路１７により、目的とする音源パルス１
８を得る。

一方、４種のパラメータのうちの１種のパラメータ（復
号化されたスペクトルパラメータ４′）のみは、バッフ
ァメモリ１９に格納され、音源パルス再生回路１７での
遅延を補正した後、そのバッファメモリ１９の出力を合
成フィルタ２０の係数として用いる。音源パルス１８を
この合成フィルタ２０に入力することにより、その出力
として合成音声２１を得ることができる。

第２図は、第１図における音源生成部の機能ブロック図
である。

音源生成部１１は、第２図に示すように、無声から有声
に切り替わったことにより制御を切り替えるための切替
制御部３１と、残差信号を格納するバッファメモリ１１
１と、無声から有声に切り替わったとき、パルスの抽出
位置を決定するためのパルス抽出位置決定部１１２と、
前フレームで決定された代表残差の先頭アドレスがバッ
ファメモリ１１１のアドレスに変換されて格納されてい
る先頭位置メモリ３０と、有声フレームが連続している
とき、パルス抽出位置を決定するためのパルス抽出位置
決定部３２と、先頭アドレスおよびバッファメモリ１１
１から音源を抽出するための音源抽出部１１５と、無声
音源を生成するための無声音源生成部１１６とから構成
されている。

本実施例の音声符号化方式は、有声フレームの音源生成
に関するものであるため、有声無声判定結果１０ａは有
声を示しており、ピッチ周期８は値が確定しているもの
とする（以下、ピッチ周期の値をＮＰＴＣＴ〜■とする
）。

先ず、有声無声切替信号１０ｂが無声から有声に切り替
わった直後であることを示しているときには、切替制御
部３１からの信号で制御がパルス抽出位置決定部（Ｉ）
１１２に移る。ここで制御される場合の音源生成部１１
の機能は、従来の残差圧縮法（例えば、前述の公報（特
開昭６１−２９６３９８号公報）に第２の方法として記
載されている残差圧縮法）と同一である。すなわち、代
表的なピッチ区間に対して、連続したＬＮ本の残差パル
スを抽出する（ここで、ＬＮ本とは、抽出パルス数１１
３の値で示される本数である）。

また、前述の特願昭６０−２４１４１９号明細書に記載
されているように、復号時に、前フレームの復号残差と
現フレームの代表残差を補間する場合には２代表ピッチ
区間は現フレームの最後の点を含むように定める。つま
り、パルス抽出位置決定部（１）１１２においては１次
式を算出する。

ＡＭＰ（ｉ）りｘ７゛ＩｘＪ・・・・・（１）ただし、
ｉは次の条件式を満足する。

ｉ　Ｆ　ＲＭ　−Ｎ　Ｐ　Ｔ　ＣＨ＋　１≦ｉ≦ｉＦＲ
Ｍ・・・・・・・・　（２）ここで、ｘ４は、アドレスｊの残差パルス振幅であり、
バッファメモリ１１１から読み出される。

なお、バッファメモリ１１１はリングバッファであって
、前フレームと現フレームの残差が格納されている。ま
た、ｉＦＲＭはフレーム長であり、ＬＮは抽出パルス数
１１３の値である。

例えば、パルス抽出位置決定部１１２が、補間すべき次
の残差パルスの振幅情報と位置情報を求るるため、上式
（１）、（２）式で先ず振幅累計値を求める。いま、バ
ッファメモリ１１１に、現フレーム長としてＯ〜１５９
のアドレスが割付けられ、代表的ピッチ区間に対して連
続した２０本の残差パルスがある場合には、次の代表ピ
ッチ区間は呪フレームの最後の点を含むようにして決定
され、上式（２）よりフレーム長より小さく、かつフレ
ーム長よりピッチ周期だけ小さい区間より大きい区間内
に求める位置ｉを定める。そして、上記（１）式で算出
された振幅累計値から先頭アドレスを求め、そのアドレ
スから２０本分の残差パルスをバッファメモリ１１１か
ら取り出すことにより補間するのである。

上式（１）で算出されたＡＭＰ（ｉ）の最大値を与える
ｉを１０とすると、１０が代表残差の先頭アドレス１１
４ａである。先頭アドレス１１４ａが音源抽出部１１５
に送られると、先頭アドレスからＬ　Ｎ本の残差をバッ
ファメモリ１１１から読み出し、これらを音源情報１２
として後段に送出する。

次に、有声無声切替信号１０ｂが無声から有声への切り
替わり直後でないとき、つまり有声フレＡ％が連続して
いることを示す場合について、詳述する。

このときには、切替制御部３１からの信号で、制御がパ
ルス抽出位置決定部（ＩＩ）３２に移る。

バッファメモリ１１１には、２フレ一ム分の残差が格納
されている。アドレス−ｉＦＲＭ＋１〜０までが前フレ
ーム分であり、１〜ｉＦＲＭまでが現フレーム分である
。また、先頭位置メモリ３０には、前フレームで決定さ
れた代表残差の先頭アドレスｉ。がバッファメモリ１１
１上のアドレスに変換され（ｉ、’　＝　ｉ、　−ｉ　
Ｆ　ＲＭ）、これが格納されている。現フレームの代表
残差の先頭位・・・・・・・・・　（３）なお、上式（３）において、５ＴＡＤＲ３，、・・・・
・・５ＴＡＤＲ３Ｎは、復号時に代表残差を補間するた
めの先頭アドレスに対応したものであって、５ＴＡＤＲ
５Ｎは現フレームにおける最後のピッチ区間内のもの、
つまり代表残差の先頭アドレスであり、次のようになる
。

１０＝ＳＴＡＤＲ３Ｈ・・・・・・・・　（４）このよ
うにすれば、前フレームの代表残差先頭アドレスから現
フレームの代表残差先頭アドレスを、極めて簡単に求め
ることができる。

しかし、ピッチ周期ＮＰＴＣＨは、現フレームの平均的
なピッチ周期であるため、実際のピッチ位置とは誤差を
持つ可能性がある。そこで、より精密に位置を決めるた
めに、次のようにする。

先ず、（５）式により、短区間相互相関値を定義する。

ｘ　ｏ　’　＋　ＮＰＴＣＩＩ　　Ｄ≦ｉ≦ｉ　０’　
＋　ＮＰＴＣＩＩ　＋　Ｄ・・・・・・・　（６）ここで、Ｄ（＞Ｏ）は、ピッチのゆらぎ等で決まる値で
あり、ＣＯＲは相互相関値を表わす。上式（６）では、
現フレームの最初の音源パルス列の先頭アドレスの存在
範囲が前フレームの代表残差の先頭アドレスにピッチ周
期のゆらぎを考慮して加算した範囲にあることを示して
おり、上式（５）では、先頭アドレスから抽出パルス数
ＬＮ本分の残差パルスの振幅累積値を求めるもので、位
相が一致していれば相関値は最大値となる。

次の式により、第１のスタートアドレスを求める。

・　・　・　・　・　・　・　・　・　（７）上式（７
）では、前フレームの代表残差とＮＰＴＣＨ離れた位置
の近傍で、最も相関値が高くなる位置ｉを検出したこと
になる。以下、　１０′　を５ＴＡＤＲ３□に置き換え
て、同じ手順で５ＴＡＤＲ３２を求め、順次、５ＴＡＤ
Ｒ８Ｎ（＝ｉｏ）まで求めればよい。

また、５ＴＡＤＲ８ｎの決定には、上式（１）を利用す
ることも可能である（ここで、ｎは任意の整数）。すな
わち、上式（１）におけるｉの範囲を（６）式として、
下記（８）式を導く。

・・・・・・・・・・　（８）以下、同じ手順で、５ＴＡＤＲ５Ｎ（＝ｉ、）まで求め
る。

以上に述べたうちのいずれかの方法で決定した代表残差
の先頭アドレス（ｉｏ）１１４ｂを、音源抽出部１１５
に送出する。

復号時には、従来の方法（例えば、前述の特願昭６０−
２４１４１９号明細書参照）により１代表残差と前フレ
ームの復号残差とを補間しながら音源パルスを再生する
。このとき、補間対応点アドレスは、前フレームの代表
残差位置そのものであるから、改めて伝送する必要がな
い。

本実施例に示す音源パルス生成部１１は、以上詳述した
ように、加算器、相関器および比較器等により簡単に実
現することができる。また、汎用のマイクロプロセッサ
により、同じ機能を実現することも可能である。

なお、現フレームにおいて、有声無声判定結果１０ａが
無声となっているときには、切替制御部３１からの制御
信号により、制御が無声音源生成部１１６に切り替えら
れる。無声音源生成部１１６の動作は、例えば、従来提
案されている方法（例えば、特願昭６１−３５１４８号
明細書参照）のように、ピッチ周期とは無関係に音源パ
ルスを生成するものである。

第３図は、本発明の詳細な説明するためのタイムチャー
トである。

第３図（ａ）は従来の方法による入力音声波形４１、残
差波形４２、代表残差波形４３ａ、および合成波形４４
ａを示す波形図であり、第３図（ｂ）は本実施例による
入力音声波形４１．残差波形４２、代表残差４３ｂ、お
よび合成波形４４　ｂを示す波形図である。

入力音声波形４１は（ａ）（ｂ）ともに同一波形であっ
て、逆フィルタ５の残差信号の波形４２も同一波形とな
る。従来の方法では、代表残差（復号後）をフレームご
とに独立に抽出しているので、波形４３ａに示すように
、フレーム＃３において代表残差の位置ずれが生じてお
り１周期性が乱れている。矢印で、そのずれ幅を示して
いる。その結果、第３図（、）に示すように、合成波形
４４ａは位置ずれが生じた位置で振幅の減衰が生じ、音
質の劣化を招いている。

本実施例の場合には、第３図（ｂ）に示すように、有声
フレームが連続したとき、前フレームの代表残差位置を
基準として従属的に抽出した代表残差（復号後）４３ｂ
となる。この代表残差４３ｂには位置すれかなく、従っ
て合成波形４４ｂも減衰がなく、自然であって、第３図
（ａ）の従来方式に比較して音質が向上している。

〔発明の効果〕

以上説明したように、本発明によれば、有声音が連続す
るときには、本来の音声が有する周期性を乱すことなく
音源パルス列を生成するので、周期性の乱れにより生じ
ていた音質の劣化を防ぐことができ、符号化音声の品質
を向上させることが可能である。

【図面の簡単な説明】

第１図は本発明の一実施例を示す音声符号化システムの
ブロック図、第２図は第１図における音源生成部のブロ
ック図、第３図は本発明の詳細な説明する波形タイムチ
ャートである。１．１９，１１１：バッファメモリ、３：線形予測回路
、５：逆フィルタ、７：ピッチ抽出回路、９：有声無声
判別器、１１：音源生成部、１７：音源パルス再生器、
２０：合成フィルタ、３１：切替制御部、１１２，３２
：パルス抽出位置決定回路、３０：先頭位置メモリ、１
１６：無声音源生成部、１１５：音源抽出部、６：残差
信号、１２：音源情報、２１：合成音声、４３ａ、ｂ：
代表残差波形、４４ａ、ｂ：合成波形、４２：残差波形
、４１：入力音声波形。特許出願人　株式会社　日立製作所］１゛

Claims

【特許請求の範囲】１、音声信号をフレームごとに分析し、かつスペクトル
包絡情報と音声情報とに分離し、また該音声信号が有声
か無声かを判定して、有声フレームでは音源として１ピ
ッチ周期当り複数本のパルスを用いた音声符号化方式に
おいて、上記有声フレームが無声フレームから切り替わ
った直後か、有声フレームが連続したか、あるいは無声
フレームであるかのいずれかを判定する手段と、上記無
声フレームから有声フレームに切り替わった直後に、音
源パルスを生成する第１の音源パルス生成手段と、上記
有声フレームが連続するときに、音源パルスを生成する
第２の音源パルス生成手段と、上記無声フレームのとき
に、音源パルスを生成する第３の音源パルス生成手段と
を具備することを特徴とする音声符号化方式。２、上記第２の音源パルス生成手段は、現在の有声フレ
ームの直前の有声フレームの音源パルス位置を基準に、
ピッチ周期により現在の有声フレームの音源パルス位置
を決定し、決定された位置の近傍に音源パルス列を生成
することを特徴とする特許請求の範囲第１項記載の音声
符号化方式。３、上記現在の有声フレームの音源パルス位置の決定の
ため、相関法を用いることを特徴とする特許請求の範囲
第２項記載の音声符号化方式。