JP2002123299A

JP2002123299A - 音声処理装置および音声処理方法、学習装置および学習方法、並びにプログラムおよび記録媒体

Info

Publication number: JP2002123299A
Application number: JP2001239062A
Authority: JP
Inventors: Tetsujiro Kondo; 哲二郎近藤; Tsutomu Watanabe; 勉渡辺; Masaaki Hattori; 正明服部; Hiroto Kimura; 裕人木村; Yasuhiro Fujimori; 泰弘藤森
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-09
Filing date: 2001-08-07
Publication date: 2002-04-26
Anticipated expiration: 2021-08-07
Also published as: JP4736266B2

Abstract

(57)【要約】【課題】高音質の合成音を得る。【解決手段】ＣＥＬＰ(Code Excited Liner Predicti
on coding)方式の携帯電話機の受信部１１４では、Ｌコ
ード、Ｇコード、Ｉコード、およびＡコードから、残差
信号と線形予測係数が復号され、音声合成フィルタ２９
において、復号された残差信号と線形予測係数から合成
音が生成される。また、クラス分類部１２３は、Ｌコー
ド、Ｇコード、Ｉコード、およびＡコード、並びに復号
された残差信号および線形予測係数から生成されたクラ
スタップに基づいてクラス分類を行い、対応するクラス
コードを、係数メモリ１２４に出力する。係数メモリ１
２４は、クラスコードに対応するタップ係数を出力し、
予測部１２５は、このタップ係数と、音声合成フィルタ
２９が出力する合成音を用いて、高音質の音声の予測値
を求める。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データ処理装置お
よびデータ処理方法、学習装置および学習方法、並びに
プログラムおよび記録媒体に関し、特に、例えば、ＣＥ
ＬＰ(Code Excited Liner Prediction coding)方式で符
号化された音声を、高音質の音声に復号することができ
るようにするデータ処理装置およびデータ処理方法、学
習装置および学習方法、並びにプログラムおよび記録媒
体に関する。

【０００２】

【従来の技術】図１および図２は、従来の携帯電話機の
一例の構成を示している。

【０００３】この携帯電話機では、音声を、ＣＥＬＰ方
式により所定のコードに符号化して送信する送信処理
と、他の携帯電話機から送信されてくるコードを受信し
て、音声に復号する受信処理とが行われるようになって
おり、図１は、送信処理を行う送信部を、図２は、受信
処理を行う受信部を、それぞれ示している。

【０００４】図１に示した送信部では、ユーザが発話し
た音声が、マイク（マイクロフォン）１に入力され、そ
こで、電気信号としての音声信号に変換され、Ａ／Ｄ(A
nalog/Digital)変換部２に供給される。Ａ／Ｄ変換部２
は、マイク１からのアナログの音声信号を、例えば、８
ｋＨｚ等のサンプリング周波数でサンプリングすること
により、ディジタルの音声信号にＡ／Ｄ変換し、さら
に、所定のビット数で量子化を行って、演算器３とＬＰ
Ｃ(Liner Prediction Coefficient)分析部４に供給す
る。

【０００５】ＬＰＣ分析部４は、Ａ／Ｄ変換部２からの
音声信号を、例えば、１６０サンプル分の長さのフレー
ムごとにＬＰＣ分析し、Ｐ次の線形予測係数α₁，α₂，
・・・，α_Pを求める。そして、ＬＰＣ分析部４は、こ
のＰ次の線形予測係数α_p（ｐ＝１，２，・・・，Ｐ）
を要素とするベクトルを、音声の特徴ベクトルとして、
ベクトル量子化部５に供給する。

【０００６】ベクトル量子化部５は、線形予測係数を要
素とするコードベクトルとコードとを対応付けたコード
ブックを記憶しており、そのコードブックに基づいて、
ＬＰＣ分析部４からの特徴ベクトルαをベクトル量子化
し、そのベクトル量子化の結果得られるコード（以下、
適宜、Ａコード(A_code)という）を、コード決定部１５
に供給する。

【０００７】さらに、ベクトル量子化部５は、Ａコード
に対応するコードベクトルα’を構成する要素となって
いる線形予測係数α₁’，α₂’，・・・，α_P’を、音
声合成フィルタ６に供給する。

【０００８】音声合成フィルタ６は、例えば、ＩＩＲ(I
nfinite Impulse Response)型のディジタルフィルタ
で、ベクトル量子化部５からの線形予測係数α_p’（ｐ
＝１，２，・・・，Ｐ）をＩＩＲフィルタのタップ係数
とするとともに、演算器１４から供給される残差信号ｅ
を入力信号として、音声合成を行う。

【０００９】即ち、ＬＰＣ分析部４で行われるＬＰＣ分
析は、現在時刻ｎの音声信号（のサンプル値）ｓ_n、お
よびこれに隣接する過去のＰ個のサンプル値ｓ_n-1，ｓ
_n-2，・・・，ｓ_n-Pに、式ｓ_n＋α₁ｓ_n-1＋α₂ｓ_n-2＋・・・＋α_Pｓ_n-P＝e_n ・・・（１）で示す線形１次結合が成立すると仮定し、現在時刻ｎの
サンプル値ｓ_nの予測値（線形予測値）ｓ_n’を、過去の
Ｐ個の標本値ｓ_n-1，ｓ_n-2，・・・，ｓ_n-Pを用いて、
式ｓ_n’＝−（α₁ｓ_n-1＋α₂ｓ_n-2＋・・・＋α_Pｓ_n-P）・・・（２）によって線形予測したときに、実際のサンプル値ｓ_nと
線形予測値ｓ_n’との間の自乗誤差を最小にする線形予
測係数α_pを求めるものである。

【００１０】ここで、式（１）において、｛e_n｝（・・
・，e_n-1，e_n，e_n+1，・・・）は、平均値が０で、分散
が所定値σ²の互いに無相関な確率変数である。

【００１１】式（１）から、サンプル値ｓ_nは、式ｓ_n＝e_n−（α₁ｓ_n-1＋α₂ｓ_n-2＋・・・＋α_Pｓ_n-P）・・・（３）で表すことができ、これを、Ｚ変換すると、次式が成立
する。

【００１２】Ｓ＝Ｅ／（１＋α₁ｚ^-1＋α₂ｚ^-2＋・・・＋α_Pｚ^-P）・・・（４）但し、式（４）において、ＳとＥは、式（３）における
ｓ_nとｅ_nのＺ変換を、それぞれ表す。

【００１３】ここで、式（１）および（２）から、ｅ_n
は、式ｅ_n＝ｓ_n−ｓ_n’ ・・・（５）で表すことができ、実際のサンプル値ｓ_nと線形予測値
ｓ_n’との間の残差信号と呼ばれる。

【００１４】従って、式（４）から、線形予測係数α_p
をＩＩＲフィルタのタップ係数とするとともに、残差信
号ｅ_nをＩＩＲフィルタの入力信号とすることにより、
音声信号ｓ_nを求めることができる。

【００１５】そこで、音声合成フィルタ６は、上述した
ように、ベクトル量子化部５からの線形予測係数α_p’
をタップ係数とするとともに、演算器１４から供給され
る残差信号ｅを入力信号として、式（４）を演算し、音
声信号（合成音信号）ｓｓを求める。

【００１６】なお、音声合成フィルタ６では、ＬＰＣ分
析部４によるＬＰＣ分析の結果得られる線形予測係数α
_pではなく、そのベクトル量子化の結果得られるコード
に対応するコードベクトルとしての線形予測係数α_p’
が用いられるため、音声合成フィルタ６が出力する合成
音信号は、Ａ／Ｄ変換部２が出力する音声信号とは、基
本的に同一にはならない。

【００１７】音声合成フィルタ６が出力する合成音信号
ｓｓは、演算器３に供給される。演算器３は、音声合成
フィルタ６からの合成音信号ｓｓから、Ａ／Ｄ変換部２
が出力する音声信号ｓを減算し、その減算値を、自乗誤
差演算部７に供給する。自乗誤差演算部７は、演算器３
からの減算値の自乗和（第ｋフレームのサンプル値につ
いての自乗和）を演算し、その結果得られる自乗誤差
を、自乗誤差最小判定部８に供給する。

【００１８】自乗誤差最小判定部８は、自乗誤差演算部
７が出力する自乗誤差に対応付けて、ラグを表すコード
としてのＬコード(L_code)、ゲインを表すコードとして
のＧコード(G_code)、および符号語を表すコードとして
のＩコード(I_code)を記憶しており、自乗誤差演算部７
が出力する自乗誤差に対応するＬコード、Ｇコード、お
よびＬコードを出力する。Ｌコードは、適応コードブッ
ク記憶部９に、Ｇコードは、ゲイン復号器１０に、Ｉコ
ードは、励起コードブック記憶部１１に、それぞれ供給
される。さらに、Ｌコード、Ｇコード、およびＩコード
は、コード決定部１５にも供給される。

【００１９】適応コードブック記憶部９は、例えば７ビ
ットのＬコードと、所定の遅延時間（ラグ）とを対応付
けた適応コードブックを記憶しており、演算器１４から
供給される残差信号ｅを、自乗誤差最小判定部８から供
給されるＬコードに対応付けられた遅延時間だけ遅延し
て、演算器１２に出力する。

【００２０】ここで、適応コードブック記憶部９は、残
差信号ｅを、Ｌコードに対応する時間だけ遅延して出力
することから、その出力信号は、その遅延時間を周期と
する周期信号に近い信号となる。この信号は、線形予測
係数を用いた音声合成において、主として、有声音の合
成音を生成するための駆動信号となる。

【００２１】ゲイン復号器１０は、Ｇコードと、所定の
ゲインβおよびγとを対応付けたテーブルを記憶してお
り、自乗誤差最小判定部８から供給されるＧコードに対
応付けられたゲインβおよびγを出力する。ゲインβと
γは、演算器１２と１３に、それぞれ供給される。

【００２２】励起コードブック記憶部１１は、例えば９
ビットのＩコードと、所定の励起信号とを対応付けた励
起コードブックを記憶しており、自乗誤差最小判定部８
から供給されるＩコードに対応付けられた励起信号を、
演算器１３に出力する。

【００２３】ここで、励起コードブックに記憶されてい
る励起信号は、例えば、ホワイトノイズ等に近い信号で
あり、線形予測係数を用いた音声合成において、主とし
て、無声音の合成音を生成するための駆動信号となる。

【００２４】演算器１２は、適応コードブック記憶部９
の出力信号と、ゲイン復号器１０が出力するゲインβと
を乗算し、その乗算値ｌを、演算器１４に供給する。演
算器１３は、励起コードブック記憶部１１の出力信号
と、ゲイン復号器１０が出力するゲインγとを乗算し、
その乗算値ｎを、演算器１４に供給する。演算器１４
は、演算器１２からの乗算値ｌと、演算器１３からの乗
算値ｎとを加算し、その加算値を、残差信号ｅとして、
音声合成フィルタ６に供給する。

【００２５】音声合成フィルタ６では、以上のようにし
て、演算器１４から供給される残差信号ｅを入力信号
が、ベクトル量子化部５から供給される線形予測係数α
_p’をタップ係数とするＩＩＲフィルタでフィルタリン
グされ、その結果得られる合成音信号が、演算器３に供
給される。そして、演算器３および自乗誤差演算部７に
おいて、上述の場合と同様の処理が行われ、その結果得
られる自乗誤差が、自乗誤差最小判定部８に供給され
る。

【００２６】自乗誤差最小判定部８は、自乗誤差演算部
７からの自乗誤差が最小（極小）になったかどうかを判
定する。そして、自乗誤差最小判定部８は、自乗誤差が
最小になっていないと判定した場合、上述のように、そ
の自乗誤差に対応するＬコード、Ｇコード、およびＬコ
ードを出力し、以下、同様の処理が繰り返される。

【００２７】一方、自乗誤差最小判定部８は、自乗誤差
が最小になったと判定した場合、確定信号を、コード決
定部１５に出力する。コード決定部１５は、ベクトル量
子化部５から供給されるＡコードをラッチするととも
に、自乗誤差最小判定部８から供給されるＬコード、Ｇ
コード、およびＩコードを順次ラッチするようになって
おり、自乗誤差最小判定部８から確定信号を受信する
と、そのときラッチしているＡコード、Ｌコード、Ｇコ
ード、およびＩコードを、チャネルエンコーダ１６に供
給する。チャネルエンコーダ１６は、コード決定部１５
からのＡコード、Ｌコード、Ｇコード、およびＩコード
を多重化し、コードデータとして出力する。このコード
データは、伝送路を介して送信される。

【００２８】なお、以下では、説明を簡単にするため、
Ａコード、Ｌコード、Ｇコード、およびＩコードは、フ
レームごとに求められるものとする。但し、例えば、１
フレームを、４つのサブフレームに分割し、Ｌコード、
Ｇコード、およびＩコードは、サブフレームごとに求め
るようにすること等が可能である。

【００２９】ここで、図１（後述する図２、図１１、お
よび図１２においても同様）では、各変数に、[k]が付
され、配列変数とされている。このkは、フレーム数を
表すが、明細書中では、その記述は、適宜省略する。

【００３０】次に、以上のようにして、他の携帯電話機
の送信部から送信されてくるコードデータは、図２に示
した受信部のチャネルデコーダ２１で受信される。チャ
ネルデコーダ２１は、コードデータから、Ｌコード、Ｇ
コード、Ｉコード、Ａコードを分離し、それぞれを、適
応コードブック記憶部２２、ゲイン復号器２３、励起コ
ードブック記憶部２４、フィルタ係数復号器２５に供給
する。

【００３１】適応コードブック記憶部２２、ゲイン復号
器２３、励起コードブック記憶部２４、演算器２６乃至
２８は、図１の適応コードブック記憶部９、ゲイン復号
器１０、励起コードブック記憶部１１、演算器１２乃至
１４とそれぞれ同様に構成されるもので、図１で説明し
た場合と同様の処理が行われることにより、Ｌコード、
Ｇコード、およびＩコードが、残差信号ｅに復号され
る。この残差信号ｅは、音声合成フィルタ２９に対し
て、入力信号として与えられる。

【００３２】フィルタ係数復号器２５は、図１のベクト
ル量子化部５が記憶しているのと同一のコードブックを
記憶しており、Ａコードを、線形予測係数α_p’に復号
し、音声合成フィルタ２９に供給する。

【００３３】音声合成フィルタ２９は、図１の音声合成
フィルタ６と同様に構成されており、フィルタ係数復号
器２５からの線形予測係数α_p’をタップ係数とすると
ともに、演算器２８から供給される残差信号ｅを入力信
号として、式（４）を演算し、これにより、図１の自乗
誤差最小判定部８において自乗誤差が最小と判定された
ときの合成音信号を生成する。この合成音信号は、Ｄ／
Ａ(Digital/Analog)変換部３０に供給される。Ｄ／Ａ変
換部３０は、音声合成フィルタ２９からの合成音信号
を、ディジタル信号からアナログ信号にＤ／Ａ変換し、
スピーカ３１に供給して出力させる。

【００３４】

【発明が解決しようとする課題】以上のように、携帯電
話機の送信部では、受信部の音声合成フィルタ２９に与
えられるフィルタデータとしての残差信号と線形予測係
数がコード化されて送信されてくるため、受信部では、
そのコードが、残差信号と線形予測係数に復号される。
しかしながら、この復号された残差信号や線形予測係数
（以下、適宜、それぞれを、復号残差信号または復号線
形予測係数という）には、量子化誤差等の誤差が含まれ
るため、音声をＬＰＣ分析して得られる残差信号と線形
予測係数には一致しない。

【００３５】このため、受信部の音声合成フィルタ２９
が出力する合成音信号は、歪みを有する、音質の劣化し
たものとなる。

【００３６】本発明は、このような状況に鑑みてなされ
たものであり、高音質の合成音が得られるようにするも
のである。

【００３７】

【課題を解決するための手段】本発明の音声処理装置
は、予測値を求めようとしている高音質の音声を注目音
声として、その注目音声を予測するのに用いる予測タッ
プを、合成音から抽出する予測タップ抽出手段と、注目
音声を、幾つかのクラスのうちのいずれかにクラス分類
するのに用いるクラスタップを、コードから抽出するク
ラスタップ抽出手段と、クラスタップに基づいて、注目
音声のクラスを求めるクラス分類を行うクラス分類手段
と、学習を行うことにより求められた、クラスごとのタ
ップ係数の中から、注目音声のクラスに対応するタップ
係数を取得する取得手段と、予測タップと、注目音声の
クラスに対応するタップ係数を用いて、注目音声の予測
値を求める予測手段とを備えることを特徴とする。

【００３８】本発明の音声処理方法は、予測値を求めよ
うとしている高音質の音声を注目音声として、その注目
音声を予測するのに用いる予測タップを、合成音から抽
出する予測タップ抽出ステップと、注目音声を、幾つか
のクラスのうちのいずれかにクラス分類するのに用いる
クラスタップを、コードから抽出するクラスタップ抽出
ステップと、クラスタップに基づいて、注目音声のクラ
スを求めるクラス分類を行うクラス分類ステップと、学
習を行うことにより求められた、クラスごとのタップ係
数の中から、注目音声のクラスに対応するタップ係数を
取得する取得ステップと、予測タップと、注目音声のク
ラスに対応するタップ係数を用いて、注目音声の予測値
を求める予測ステップとを備えることを特徴とする。

【００３９】本発明の第１のプログラムは、予測値を求
めようとしている高音質の音声を注目音声として、その
注目音声を予測するのに用いる予測タップを、合成音か
ら抽出する予測タップ抽出ステップと、注目音声を、幾
つかのクラスのうちのいずれかにクラス分類するのに用
いるクラスタップを、コードから抽出するクラスタップ
抽出ステップと、クラスタップに基づいて、注目音声の
クラスを求めるクラス分類を行うクラス分類ステップ
と、学習を行うことにより求められた、クラスごとのタ
ップ係数の中から、注目音声のクラスに対応するタップ
係数を取得する取得ステップと、予測タップと、注目音
声のクラスに対応するタップ係数を用いて、注目音声の
予測値を求める予測ステップとを備えることを特徴とす
る。

【００４０】本発明の第１の記録媒体は、予測値を求め
ようとしている高音質の音声を注目音声として、その注
目音声を予測するのに用いる予測タップを、合成音から
抽出する予測タップ抽出ステップと、注目音声を、幾つ
かのクラスのうちのいずれかにクラス分類するのに用い
るクラスタップを、コードから抽出するクラスタップ抽
出ステップと、クラスタップに基づいて、注目音声のク
ラスを求めるクラス分類を行うクラス分類ステップと、
学習を行うことにより求められた、クラスごとのタップ
係数の中から、注目音声のクラスに対応するタップ係数
を取得する取得ステップと、予測タップと、注目音声の
クラスに対応するタップ係数を用いて、注目音声の予測
値を求める予測ステップとを備えるプログラムが記録さ
れていることを特徴とする。

【００４１】本発明の学習装置は、予測値を求めようと
している高音質の音声を注目音声として、その注目音声
を、幾つかのクラスのうちのいずれかにクラス分類する
のに用いるクラスタップを、コードから抽出するクラス
タップ抽出手段と、クラスタップに基づいて、注目音声
のクラスを求めるクラス分類を行うクラス分類手段と、
タップ係数および合成音を用いて予測演算を行うことに
より得られる高音質の音声の予測値の予測誤差が統計的
に最小になるように、学習を行い、クラスごとのタップ
係数を求める学習手段とを備えることを特徴とする。

【００４２】本発明の学習方法は、予測値を求めようと
している高音質の音声を注目音声として、その注目音声
を、幾つかのクラスのうちのいずれかにクラス分類する
のに用いるクラスタップを、コードから抽出するクラス
タップ抽出ステップと、クラスタップに基づいて、注目
音声のクラスを求めるクラス分類を行うクラス分類ステ
ップと、タップ係数および合成音を用いて予測演算を行
うことにより得られる高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、クラスごと
のタップ係数を求める学習ステップとを備えることを特
徴とする。

【００４３】本発明の第２のプログラムは、予測値を求
めようとしている高音質の音声を注目音声として、その
注目音声を、幾つかのクラスのうちのいずれかにクラス
分類するのに用いるクラスタップを、コードから抽出す
るクラスタップ抽出ステップと、クラスタップに基づい
て、注目音声のクラスを求めるクラス分類を行うクラス
分類ステップと、タップ係数および合成音を用いて予測
演算を行うことにより得られる高音質の音声の予測値の
予測誤差が統計的に最小になるように、学習を行い、ク
ラスごとのタップ係数を求める学習ステップとを備える
ことを特徴とする。

【００４４】本発明の第２の記録媒体は、予測値を求め
ようとしている高音質の音声を注目音声として、その注
目音声を、幾つかのクラスのうちのいずれかにクラス分
類するのに用いるクラスタップを、コードから抽出する
クラスタップ抽出ステップと、クラスタップに基づい
て、注目音声のクラスを求めるクラス分類を行うクラス
分類ステップと、タップ係数および合成音を用いて予測
演算を行うことにより得られる高音質の音声の予測値の
予測誤差が統計的に最小になるように、学習を行い、ク
ラスごとのタップ係数を求める学習ステップとを備える
プログラムが記録されていることを特徴とする。

【００４５】本発明の音声処理装置および音声処理方
法、並びに第１のプログラムおよび第１の記録媒体にお
いては、予測値を求めようとしている高音質の音声を注
目音声として、その注目音声を予測するのに用いる予測
タップが、合成音から抽出されるとともに、注目音声
を、幾つかのクラスのうちのいずれかにクラス分類する
のに用いるクラスタップが、コードから抽出される。そ
して、クラスタップに基づいて、注目音声のクラスを求
めるクラス分類が行われ、予測タップと、注目音声のク
ラスに対応するタップ係数を用いて、注目音声の予測値
が求められる。

【００４６】本発明の学習装置および学習方法、並びに
第２のプログラムおよび第２の記録媒体においては、予
測値を求めようとしている高音質の音声を注目音声とし
て、その注目音声を、幾つかのクラスのうちのいずれか
にクラス分類するのに用いるクラスタップが、コードか
ら抽出され、そのクラスタップに基づいて、注目音声の
クラスを求めるクラス分類が行われる。そして、タップ
係数および合成音を用いて予測演算を行うことにより得
られる高音質の音声の予測値の予測誤差が統計的に最小
になるように、学習が行われ、クラスごとのタップ係数
が求められる。

【００４７】

【発明の実施の形態】図３は、本発明を適用した音声合
成装置の一実施の形態の構成例を示している。

【００４８】この音声合成装置には、音声合成フィルタ
４４に与える残差信号と線形予測係数を、それぞれベク
トル量子化等によってコード化した残差コードとＡコー
ドが多重化されたコードデータが供給されるようになっ
ており、その残差コードとＡコードから、それぞれ残差
信号と線形予測係数を復号し、音声合成フィルタ４４に
与えることで、合成音が生成されるようになっている。
さらに、この音声合成装置では、音声合成フィルタ４４
で生成された合成音と、学習により求めたタップ係数を
用いた予測演算を行うことにより、その合成音の音質を
向上させた高音質の音声（合成音）を求めて出力するよ
うになっている。

【００４９】即ち、図３の音声合成装置では、例えば、
クラス分類適応処理を利用して、合成音が、真の高音質
の音声（の予測値）に復号される。

【００５０】クラス分類適応処理は、クラス分類処理と
適応処理とからなり、クラス分類処理によって、データ
を、その性質に基づいてクラス分けし、各クラスごとに
適応処理を施すものであり、適応処理は、以下のような
手法のものである。

【００５１】即ち、適応処理では、例えば、合成音と、
所定のタップ係数との線形結合により、真の高音質の音
声の予測値が求められる。

【００５２】具体的には、例えば、いま、真の高音質の
音声（のサンプル値）を教師データとするとともに、そ
の真の高音質の音声を、ＣＥＬＰ方式によって、Ｌコー
ド、Ｇコード、Ｉコード、およびＡコードに符号化し、
それらのコードを、図２に示した受信部で復号すること
により得られる合成音を生徒データとして、教師データ
である高音質の音声ｙの予測値Ｅ［ｙ］を、幾つかの合
成音（のサンプル値）ｘ₁，ｘ₂，・・・の集合と、所定
のタップ係数ｗ₁，ｗ₂，・・・の線形結合により規定さ
れる線形１次結合モデルにより求めることを考える。こ
の場合、予測値Ｅ［ｙ］は、次式で表すことができる。

【００５３】Ｅ［ｙ］＝ｗ₁ｘ₁＋ｗ₂ｘ₂＋・・・・・・（６）

【００５４】式（６）を一般化するために、タップ係数
ｗ_jの集合でなる行列Ｗ、生徒データｘ_ijの集合でなる
行列Ｘ、および予測値Ｅ［ｙ_j］の集合でなる行列Ｙ’
を、

【数１】で定義すると、次のような観測方程式が成立する。

【００５５】ＸＷ＝Ｙ’・・・（７）ここで、行列Ｘの成分ｘ_ijは、ｉ件目の生徒データの集
合（ｉ件目の教師データｙ_iの予測に用いる生徒データ
の集合）の中のｊ番目の生徒データを意味し、行列Ｗの
成分ｗ_jは、生徒データの集合の中のｊ番目の生徒デー
タとの積が演算されるタップ係数を表す。また、ｙ
_iは、ｉ件目の教師データを表し、従って、Ｅ［ｙ_i］
は、ｉ件目の教師データの予測値を表す。なお、式
（６）の左辺におけるｙは、行列Ｙの成分ｙ_iのサフィ
ックスｉを省略したものであり、また、式（６）の右辺
におけるｘ₁，ｘ₂，・・・も、行列Ｘの成分ｘ_ijのサフ
ィックスｉを省略したものである。

【００５６】そして、この観測方程式に最小自乗法を適
用して、真の高音質の音声ｙに近い予測値Ｅ［ｙ］を求
めることを考える。この場合、教師データとなる真の高
音質の音声ｙの集合でなる行列Ｙ、および高音質の音声
ｙに対する予測値Ｅ［ｙ］の残差ｅの集合でなる行列Ｅ
を、

【数２】で定義すると、式（７）から、次のような残差方程式が
成立する。

【００５７】ＸＷ＝Ｙ＋Ｅ・・・（８）

【００５８】この場合、真の高音質の音声ｙに近い予測
値Ｅ［ｙ］を求めるためのタップ係数ｗ_jは、自乗誤差

【数３】を最小にすることで求めることができる。

【００５９】従って、上述の自乗誤差をタップ係数ｗ_j
で微分したものが０になる場合、即ち、次式を満たすタ
ップ係数ｗ_jが、真の高音質の音声ｙに近い予測値Ｅ
［ｙ］を求めるため最適値ということになる。

【００６０】

【数４】・・・（９）

【００６１】そこで、まず、式（８）を、タップ係数ｗ
_jで微分することにより、次式が成立する。

【００６２】

【数５】・・・（１０）

【００６３】式（９）および（１０）より、式（１１）
が得られる。

【００６４】

【数６】・・・（１１）

【００６５】さらに、式（８）の残差方程式における生
徒データｘ_ij、タップ係数ｗ_j、教師データｙ_i、および
誤差ｅ_iの関係を考慮すると、式（１１）から、次のよ
うな正規方程式を得ることができる。

【００６６】

【数７】・・・（１２）

【００６７】なお、式（１２）に示した正規方程式は、
行列（共分散行列）Ａおよびベクトルｖを、

【数８】で定義するとともに、ベクトルＷを、数１で示したよう
に定義すると、式ＡＷ＝ｖ・・・（１３）で表すことができる。

【００６８】式（１２）における各正規方程式は、生徒
データｘ_ijおよび教師データｙ_iのセットを、ある程度
の数だけ用意することで、求めるべきタップ係数ｗ_jの
数Ｊと同じ数だけたてることができ、従って、式（１
３）を、ベクトルＷについて解くことで（但し、式（１
３）を解くには、式（１３）における行列Ａが正則であ
る必要がある）、最適なタップ係数（ここでは、自乗誤
差を最小にするタップ係数）ｗ_jを求めることができ
る。なお、式（１３）を解くにあたっては、例えば、掃
き出し法（Gauss-Jordanの消去法）などを用いることが
可能である。

【００６９】以上のようにして、最適なタップ係数ｗ_j
を求めておき、さらに、そのタップ係数ｗ_jを用い、式
（６）により、真の高音質の音声ｙに近い予測値Ｅ
［ｙ］を求めるのが適応処理である。

【００７０】なお、例えば、教師データとして、高いサ
ンプリング周波数でサンプリングした音声信号、または
多ビットを割り当てた音声信号を用いるとともに、生徒
データとして、その教師データとしての音声信号を間引
いたり、低ビットで再量子化した音声信号をＣＥＬＰ方
式により符号化し、その符号化結果を復号して得られる
合成音を用いた場合、タップ係数としては、高いサンプ
リング周波数でサンプリングした音声信号、または多ビ
ットを割り当てた音声信号を生成するのに、予測誤差
が、統計的に最小となる高音質の音声が得られることに
なる。従って、この場合、より高音質の合成音を得るこ
とが可能となる。

【００７１】図３の音声合成装置では、以上のようなク
ラス分類適応処理により、Ａコードと残差コードでなる
コードデータを、高音質の音声に復号するようになって
いる。

【００７２】即ち、デマルチプレクサ（ＤＥＭＵＸ）４
１には、コードデータが供給されるようになっており、
デマルチプレクサ４１は、そこに供給されるコードデー
タから、フレームごとのＡコードと残差コードを分離す
る。そして、デマルチプレクサは、Ａコードを、フィル
タ係数復号器４２およびタップ生成部４６に供給し、残
差コードを、残差コードブック記憶部４３およびタップ
生成部４６に供給する。

【００７３】ここで、図３におけるコードデータに含ま
れるＡコードと残差コードは、音声をＬＰＣ分析して得
られる線形予測係数と残差信号を、所定のコードブック
を用いて、それぞれベクトル量子化することにより得ら
れるコードとなっている。

【００７４】フィルタ係数復号器４２は、デマルチプレ
クサ４１から供給されるフレームごとのＡコードを、そ
のＡコードを得るときに用いられたのと同一のコードブ
ックに基づいて、線形予測係数に復号し、音声合成フィ
ルタ４４に供給する。

【００７５】残差コードブック記憶部４３は、デマルチ
プレクサ４１から供給されるフレームごとの残差コード
を、その残差コードを得るときに用いられたのと同一の
コードブックに基づいて、残差信号に復号し、音声合成
フィルタ４４に供給する。

【００７６】音声合成フィルタ４４は、例えば、図１の
音声合成フィルタ２９と同様に、ＩＩＲ型のディジタル
フィルタで、フィルタ係数復号器４２からの線形予測係
数をＩＩＲフィルタのタップ係数とするとともに、残差
コードブック記憶部４３からの残差信号を入力信号とし
て、その入力信号のフィルタリングを行うことにより、
合成音を生成し、タップ生成部４５に供給する。

【００７７】タップ生成部４５は、音声合成フィルタ４
４から供給される合成音（のサンプル値）から、後述す
る予測部４９における予測演算に用いられる予測タップ
となるものを抽出する。即ち、タップ生成部４５は、例
えば、高音質の音声の予測値を求めようとしているフレ
ームである注目フレームの合成音のサンプル値すべて
を、予測タップとする。そして、タップ生成部４５は、
予測タップを、予測部４９に供給する。

【００７８】タップ生成部４６は、デマルチプレクサ４
１から供給されるフレーム（またはサブフレーム）ごと
のＡコードおよび残差コードから、クラスタップとなる
ものを抽出する。即ち、タップ生成部４６は、例えば、
注目フレームのＡコードおよび残差コードすべてを、ク
ラスタップとする。そして、タップ生成部４６は、クラ
スタップを、クラス分類部４７に供給する。

【００７９】ここで、予測タップやクラスタップの構成
パターンは、上述したパターンのものに限定されるもの
ではない。

【００８０】なお、タップ生成部４６では、Ａコードや
残差コードの他、フィルタ係数復号器４２が出力する線
形予測係数や、残差コードブック記憶部４３が出力する
残差信号、さらには、音声合成フィルタ４４が出力する
合成音等の中からも、クラスタップを抽出するようにす
ることができる。

【００８１】クラス分類部４７は、タップ生成部４６か
らのクラスタップに基づき、注目している注目フレーム
の音声（のサンプル値）をクラス分類し、その結果得ら
れるクラスに対応するクラスコードを、係数メモリ４８
に出力する。

【００８２】ここで、クラス分類部４７には、例えば、
クラスタップとしての注目フレームのＡコードおよび残
差コードを構成するビットの系列そのものを、クラスコ
ードとして出力させることが可能である。

【００８３】係数メモリ４８は、後述する図６の学習装
置において学習処理が行われることにより得られる、ク
ラスごとのタップ係数を記憶しており、クラス分類部４
７が出力するクラスコードに対応するアドレスに記憶さ
れているタップ係数を、予測部４９に出力する。

【００８４】ここで、各フレームについて、Ｎサンプル
の高音質の音声が求められるとすると、注目フレームに
ついて、Ｎサンプルの音声を、式（６）の予測演算によ
って求めるには、Ｎセットのタップ係数が必要である。
従って、この場合は、係数メモリ４８には、１つのクラ
スコードに対応するアドレスに対して、Ｎセットのタッ
プ係数が記憶されている。

【００８５】予測部４９は、タップ生成部４５が出力す
る予測タップと、係数メモリ４８が出力するタップ係数
とを取得し、その予測タップとタップ係数とを用いて、
式（６）に示した線形予測演算（積和演算）を行い、注
目フレームの高音質の音声（の予測値）を求めて、Ｄ／
Ａ変換部５０に出力する。

【００８６】ここで、係数メモリ４８は、上述したよう
に、注目フレームの音声のＮサンプルそれぞれを求める
ためのＮセットのタップ係数を出力するが、予測部４９
は、各サンプル値について、予測タップと、そのサンプ
ル値に対応するタップ係数のセットとを用い、式（６）
の積和演算を行う。

【００８７】Ｄ／Ａ変換部５０は、予測部４９からの音
声（の予測値）を、ディジタル信号からアナログ信号に
Ｄ／Ａ変換し、スピーカ５１に供給して出力させる。

【００８８】次に、図４は、図３の音声合成フィルタ４
４の構成例を示している。

【００８９】図４において、音声合成フィルタ４４は、
Ｐ次の線形予測係数を用いるものとなっており、従っ
て、１つの加算器６１、Ｐ個の遅延回路（Ｄ）６２₁乃
至６２_P、およびＰ個の乗算器６３₁乃至６３_Pから構成
されている。

【００９０】乗算器６３₁乃至６３_Pには、それぞれ、フ
ィルタ係数復号器４２から供給されるＰ次の線形予測係
数α₁，α₂，・・・，α_Pがセットされ、これにより、
音声合成フィルタ４４では、式（４）にしたがって演算
が行われ、合成音が生成される。

【００９１】即ち、残差コードブック記憶部４３が出力
する残差信号ｅは、加算器６１を介して、遅延回路６２
１に供給され、遅延回路６２_pは、そこへの入力信号
を、残差信号の１サンプル分だけ遅延して、後段の遅延
回路６２_p+1に出力するとともに、演算器６３_pに出力す
る。乗算器６３_pは、遅延回路６２_pの出力と、そこにセ
ットされた線形予測係数α_pとを乗算し、その乗算値
を、加算器６１に出力する。

【００９２】加算器６１は、乗算器６３₁乃至６３_Pの出
力すべてと、残差信号ｅとを加算し、その加算結果を、
遅延回路６２１に供給する他、音声合成結果（合成音）
として出力する。

【００９３】次に、図５のフローチャートを参照して、
図３の音声合成装置の処理（音声合成処理）について説
明する。

【００９４】デマルチプレクサ４１は、そこに供給され
るコードデータから、フレームごとのＡコードと残差コ
ードを順次分離し、それぞれを、フィルタ係数復号器４
２と残差コードブック記憶部４３に供給する。さらに、
デマルチプレクサ４１は、Ａコードおよび残差コード
を、タップ生成部４６に供給する。

【００９５】フィルタ係数復号器４２は、デマルチプレ
クサ４１から供給されるフレームごとのＡコードを、線
形予測係数に順次復号し、音声合成フィルタ４４に供給
する。また、残差コードブック記憶部４３は、デマルチ
プレクサ４１から供給されるフレームごとの残差コード
を、残差信号に順次復号し、音声合成フィルタ４４に供
給する。

【００９６】音声合成フィルタ４４では、そこに供給さ
れる残差信号および線形予測係数を用いて、式（４）の
演算が行われることにより、注目フレームの合成音が生
成される。この合成音は、タップ生成部４５に供給され
る。

【００９７】タップ生成部４５は、そこに供給される合
成音のフレームを、順次、注目フレームとし、ステップ
Ｓ１において、音声合成フィルタ４４から供給される合
成音（のサンプル値）から、予測タップを生成し、予測
部４９に出力する。さらに、ステップＳ１では、タップ
生成部４６が、デマルチプレクサ４１から供給されるＡ
コードおよび残差コードから、クラスタップを生成し、
クラス分類部４７に出力する。

【００９８】そして、ステップＳ２に進み、クラス分類
部４７は、タップ生成部４６から供給されるクラスタッ
プに基づいて、クラス分類を行い、その結果得られるク
ラスコードを、係数メモリ４８に供給して、ステップＳ
３に進む。

【００９９】ステップＳ３では、係数メモリ４８は、ク
ラス分類部４７から供給されるクラスコードに対応する
アドレスから、タップ係数を読み出し、予測部４９に供
給する。

【０１００】そして、ステップＳ４に進み、予測部４９
は、係数メモリ４８が出力するタップ係数を取得し、そ
のタップ係数と、タップ生成部４５からの予測タップと
を用いて、式（６）に示した積和演算を行い、注目フレ
ームの高音質の音声（の予測値）を得る。この高音質の
音声は、予測部４９からＤ／Ａ変換部５０を介して、ス
ピーカ５１に供給されて出力される。

【０１０１】予測部４９において、注目フレームの高音
質の音声が得られた後は、ステップＳ５に進み、まだ、
注目フレームとして処理すべきフレームがあるかどうか
が判定される。ステップＳ５において、まだ、注目フレ
ームとして処理すべきフレームがあると判定された場
合、ステップＳ１に戻り、次に注目フレームとすべきフ
レームを、新たに注目フレームとして、以下、同様の処
理を繰り返す。また、ステップＳ５において、注目フレ
ームとして処理すべきフレームがないと判定された場
合、音声合成処理を終了する。

【０１０２】次に、図６は、図３の係数メモリ４８に記
憶させるタップ係数の学習処理を行う学習装置の一実施
の形態の構成例を示している。

【０１０３】学習装置には、学習用のディジタル音声信
号が、所定のフレーム単位で供給されるようになってお
り、この学習用のディジタル音声信号は、ＬＰＣ分析部
７１および予測フィルタ７４に供給される。さらに、学
習用のディジタル音声信号は、教師データとして、正規
方程式加算回路８１にも供給される。

【０１０４】ＬＰＣ分析部７１は、そこに供給される音
声信号のフレームを、順次、注目フレームとし、その注
目フレームの音声信号をＬＰＣ分析することで、Ｐ次の
線形予測係数を求め、ベクトル量子化部７２および予測
フィルタ７４に供給する。

【０１０５】ベクトル量子化部７２は、線形予測係数を
要素とするコードベクトルとコードとを対応付けたコー
ドブックを記憶しており、そのコードブックに基づい
て、ＬＰＣ分析部７１からの注目フレームの線形予測係
数で構成される特徴ベクトルをベクトル量子化し、その
ベクトル量子化の結果得られるＡコードを、フィルタ係
数復号器７３およびタップ生成部７９に供給する。

【０１０６】フィルタ係数復号器７３は、ベクトル量子
化部７２が記憶しているのと同一のコードブックを記憶
しており、そのコードブックに基づいて、ベクトル量子
化部７２からのＡコードを、線形予測係数に復号し、音
声合成フィルタ７７に供給する。ここで、図３のフィル
タ係数復号器４２は、図６のフィルタ係数復号器７３と
同様に構成されている。

【０１０７】予測フィルタ７４は、そこに供給される注
目フレームの音声信号と、LPC分析部７１からの線形予
測係数を用いて、例えば、式（１）にしたがった演算を
行うことにより、注目フレームの残差信号を求め、ベク
トル量子化部７５に供給する。

【０１０８】即ち、式（１）におけるｓ_nとｅ_nのＺ変換
を、ＳとＥとそれぞれ表すと、式（１）は、次式のよう
に表すことができる。

【０１０９】Ｅ＝（１＋α₁ｚ^-1＋α₂ｚ^-2＋・・・＋α_Pｚ^-P）Ｓ・・・（１４）

【０１１０】式（１４）から、残差信号ｅを求める予測
フィルタ７４は、ＦＩＲ(Finite Impulse Response)型
のディジタルフィルタで構成することができる。

【０１１１】即ち、図７は、予測フィルタ７４の構成例
を示している。

【０１１２】予測フィルタ７４には、ＬＰＣ分析部７１
から、Ｐ次の線形予測係数が供給されるようになってお
り、従って、予測フィルタ７４は、Ｐ個の遅延回路
（Ｄ）９１₁乃至９１_P、Ｐ個の乗算器９２₁乃至９２_P、
および１つの加算器９３から構成されている。

【０１１３】乗算器９２₁乃至９２_Pには、それぞれ、Ｌ
ＰＣ分析部７１から供給されるＰ次の線形予測係数
α₁，α₂，・・・，α_Pがセットされる。

【０１１４】一方、注目フレームの音声信号ｓは、遅延
回路９１₁と加算器９３に供給される。遅延回路９１
_pは、そこへの入力信号を、残差信号の１サンプル分だ
け遅延して、後段の遅延回路９１_p+1に出力するととも
に、演算器９２_pに出力する。乗算器９２_pは、遅延回路
９１_pの出力と、そこにセットされた線形予測係数α_pと
を乗算し、その乗算値を、加算器９３に出力する。

【０１１５】加算器９３は、乗算器９２₁乃至９２_Pの出
力すべてと、音声信号ｓとを加算し、その加算結果を、
残差信号ｅとして出力する。

【０１１６】図６に戻り、ベクトル量子化部７５は、残
差信号のサンプル値を要素とするコードベクトルとコー
ドとを対応付けたコードブックを記憶しており、そのコ
ードブックに基づいて、予測フィルタ７４からの注目フ
レームの残差信号のサンプル値で構成される残差ベクト
ルをベクトル量子化し、そのベクトル量子化の結果得ら
れる残差コードを、残差コードブック記憶部７６および
タップ生成部７９に供給する。

【０１１７】残差コードブック記憶部７６は、ベクトル
量子化部７５が記憶しているのと同一のコードブックを
記憶しており、そのコードブックに基づいて、ベクトル
量子化部７５からの残差コードを、残差信号に復号し、
音声合成フィルタ７７に供給する。ここで、図３の残差
コードブック記憶部４３は、図６の残差コードブック記
憶部７６と同様に構成されている。

【０１１８】音声合成フィルタ７７は、図３の音声合成
フィルタ４４と同様に構成されるＩＩＲフィルタで、フ
ィルタ係数復号器７３からの線形予測係数をＩＩＲフィ
ルタのタップ係数とするとともに、残差コードブック記
憶部７５からの残差信号を入力信号として、その入力信
号のフィルタリングを行うことにより、合成音を生成
し、タップ生成部７８に供給する。

【０１１９】タップ生成部７８は、図３のタップ生成部
４５における場合と同様に、音声合成フィルタ７７から
供給される合成音から、予測タップを構成し、正規方程
式加算回路８１に供給する。タップ生成部７９は、図３
のタップ生成部４６における場合と同様に、ベクトル量
子化部７２と７５からそれぞれ供給されるＡコードと残
差コードから、クラスタップを構成し、クラス分類部８
０に供給する。

【０１２０】クラス分類部８０は、図３のクラス分類部
４７における場合と同様に、そこに供給されるクラスタ
ップに基づいて、クラス分類を行い、その結果得られる
クラスコードを、正規方程式加算回路８１に供給する。

【０１２１】正規方程式加算回路８１は、教師データと
しての注目フレームの高音質の音声である学習用の音声
と、タップ生成部７８からの生徒データとしての予測タ
ップ（を構成する音声合成フィルタ７７の合成音出力）
を対象とした足し込みを行う。

【０１２２】即ち、正規方程式加算回路８１は、クラス
分類部８０から供給されるクラスコードに対応するクラ
スごとに、予測タップ（生徒データ）を用い、式（１
３）の行列Ａにおける各コンポーネントとなっている、
生徒データどうしの乗算（ｘ_inｘ_im）と、サメーション
（Σ）に相当する演算を行う。

【０１２３】さらに、正規方程式加算回路８１は、やは
り、クラス分類部８０から供給されるクラスコードに対
応するクラスごとに、生徒データ（予測タップを構成す
る、音声合成フィルタ７７から出力される合成音のサン
プル値）および教師データ（注目フレームの高音質の音
声のサンプル値）を用い、式（１３）のベクトルｖにお
ける各コンポーネントとなっている、生徒データと教師
データの乗算（ｘ_inｙ _i）と、サメーション（Σ）に相
当する演算を行う。

【０１２４】正規方程式加算回路８１は、以上の足し込
みを、そこに供給される学習用の音声のフレームすべて
を注目フレームとして行い、これにより、各クラスにつ
いて、式（１３）に示した正規方程式をたてる。

【０１２５】タップ係数決定回路８２は、正規方程式加
算回路８１においてクラスごとに生成された正規方程式
を解くことにより、クラスごとに、タップ係数を求め、
係数メモリ８３の、各クラスに対応するアドレスに供給
する。

【０１２６】なお、学習用の音声信号として用意した音
声信号によっては、正規方程式加算回路８１において、
タップ係数を求めるのに必要な数の正規方程式が得られ
ないクラスが生じる場合があり得るが、タップ係数決定
回路８２は、そのようなクラスについては、例えば、デ
フォルトのタップ係数を出力する。

【０１２７】係数メモリ８３は、タップ係数決定回路８
２から供給されるクラスごとのタップ係数を、そのクラ
スに対応するアドレスに記憶する。

【０１２８】次に、図８のフローチャートを参照して、
図６の学習装置の処理（学習処理）について説明する。

【０１２９】学習装置には、学習用の音声信号が供給さ
れ、この学習用の音声信号は、ＬＰＣ分析部７１および
予測フィルタ７４に供給されるとともに、教師データと
して、正規方程式加算回路８１に供給される。そして、
ステップＳ１１において、学習用の音声信号から、生徒
データが生成される。

【０１３０】即ち、ＬＰＣ分析部７１は、学習用の音声
信号のフレームを、順次、注目フレームとし、その注目
フレームの音声信号をＬＰＣ分析することで、Ｐ次の線
形予測係数を求め、ベクトル量子化部７２に供給する。
ベクトル量子化部７２は、ＬＰＣ分析部７１からの注目
フレームの線形予測係数で構成される特徴ベクトルをベ
クトル量子化し、そのベクトル量子化の結果得られるＡ
コードを、フィルタ係数復号器７３およびタップ生成部
７９に供給する。フィルタ係数復号器７３は、ベクトル
量子化部７２からのＡコードを、線形予測係数に復号
し、その線形予測係数を、音声合成フィルタ７７に供給
する。

【０１３１】一方、ＬＰＣ分析部７１から注目フレーム
の線形予測係数を受信した予測フィルタ７４は、その線
形予測係数と、注目フレームの学習用の音声信号とを用
いて、式（１）にしたがった演算を行うことにより、注
目フレームの残差信号を求め、ベクトル量子化部７５に
供給する。ベクトル量子化部７５は、予測フィルタ７４
からの注目フレームの残差信号のサンプル値で構成され
る残差ベクトルをベクトル量子化し、そのベクトル量子
化の結果得られる残差コードを、残差コードブック記憶
部７６およびタップ生成部７９に供給する。残差コード
ブック記憶部７６は、ベクトル量子化部７５からの残差
コードを、残差信号に復号し、音声合成フィルタ７７に
供給する。

【０１３２】以上のようにして、音声合成フィルタ７７
は、線形予測係数と残差信号を受信すると、その線形予
測係数と残差信号を用いて音声合成を行い、その結果得
られる合成音を、生徒データとして、タップ生成部７８
に出力する。

【０１３３】そして、ステップＳ１２に進み、タップ生
成部７８が、音声合成フィルタ７７から供給される合成
音から、予測タップを生成するとともに、タップ生成部
７９が、ベクトル量子化部７２からのＡコードと、ベク
トル量子化部７５からの残差コードから、クラスタップ
を生成する。予測タップは、正規方程式加算回路８１に
供給され、クラスタップは、クラス分類部８０に供給さ
れる。

【０１３４】その後、ステップＳ１３において、クラス
分類部８０が、タップ生成部７９からのクラスタップに
基づいて、クラス分類を行い、その結果得られるクラス
コードを、正規方程式加算回路８１に供給する。

【０１３５】そして、ステップＳ１４に進み、正規方程
式加算回路８１は、クラス分類部８０から供給されるク
ラスについて、そこに供給される教師データとしての注
目フレームの高音質の音声のサンプル値、およびタップ
生成部７８からの生徒データとしての予測タップ（を構
成する合成音のサンプル値）を対象とした、式（１３）
の行列Ａとベクトルｖの、上述したような足し込みを行
い、ステップＳ１５に進む。

【０１３６】ステップＳ１５では、まだ、注目フレーム
として処理すべきフレームの学習用の音声信号があるか
どうかが判定される。ステップＳ１５において、まだ、
注目フレームとして処理すべきフレームの学習用の音声
信号があると判定された場合、ステップＳ１１に戻り、
次のフレームを新たに注目フレームとして、以下、同様
の処理が繰り返される。

【０１３７】また、ステップＳ１５において、注目フレ
ームとして処理すべきフレームの学習用の音声信号がな
いと判定された場合、即ち、正規方程式加算回路８１に
おいて、各クラスについて、正規方程式が得られた場
合、ステップＳ１６に進み、タップ係数決定回路８２
は、各クラスごとに生成された正規方程式を解くことに
より、各クラスごとに、タップ係数を求め、係数メモリ
８３の、各クラスに対応するアドレスに供給して記憶さ
せ、処理を終了する。

【０１３８】以上のようにして、係数メモリ８３に記憶
された各クラスごとのタップ係数が、図３の係数メモリ
４８に記憶されている。

【０１３９】従って、図３の係数メモリ４８に記憶され
たタップ係数は、線形予測演算を行うことにより得られ
る高音質の音声の予測値の予測誤差（ここでは、自乗誤
差）が、統計的に最小になるように学習を行うことによ
り求められたものであるから、図３の予測部４９が出力
する音声は、音声合成フィルタ４４で生成された合成音
の歪みが低減（解消）された、高音質のものとなる。

【０１４０】なお、図３の音声合成装置において、上述
したように、例えば、タップ生成部４６に、線形予測係
数や残差信号等の中からも、クラスタップを抽出させる
ようにする場合には、図６のタップ生成部７９にも、フ
ィルタ係数復号器７３が出力する線形予測係数や、残差
コードブック記憶部７６が出力する残差信号の中から、
同様のクラスタップを抽出させるようにする必要があ
る。但し、線形予測係数等からも、クラスタップを抽出
する場合には、タップ数が多くなることから、クラス分
類は、例えば、クラスタップをベクトル量子化等によっ
て圧縮することにより行うのが望ましい。なお、残差コ
ードおよびＡコードだけからクラス分類を行う場合に
は、残差コードとＡコードのビット列の並びを、そのま
まクラスコードとすることができることから、クラス分
類処理に要する負担を軽減することができる。

【０１４１】次に、図９は、本発明を適用した伝送シス
テム（システムとは、複数の装置が論理的に集合した物
をいい、各構成の装置が同一筐体中にあるか否かは問わ
ない）の一実施の形態の構成を示している。

【０１４２】この伝送システムでは、携帯電話機１０１
₁と１０１₂が、基地局１０２₁と１０２₂それぞれとの間
で、無線による送受信を行うとともに、基地局１０２₁
と１０２₂それぞれが、交換局１０３との間で送受信を
行うことにより、最終的には、携帯電話機１０１₁と１
０１₂との間において、基地局１０２₁および１０２₂、
並びに交換局１０３を介して、音声の送受信を行うこと
ができるようになっている。なお、基地局１０２₁と１
０２₂は、同一の基地局であっても良いし、異なる基地
局であっても良い。

【０１４３】ここで、以下、特に区別する必要がない限
り、携帯電話機１０１₁と１０１₂を、携帯電話機１０１
と記述する。

【０１４４】図１０は、図９の携帯電話機１０１の構成
例を示している。

【０１４５】アンテナ１１１は、基地局１０２₁または
１０２₂からの電波を受信し、その受信信号を、変復調
部１１２に供給するとともに、変復調部１１２からの信
号を、電波で、基地局１０２₁または１０２₂に送信す
る。変復調部１１２は、アンテナ１１１からの信号を復
調し、その結果得られる、図１で説明したようなコード
データを、受信部１１４に供給する。また、変復調部１
１２は、送信部１１３から供給される、図１で説明した
ようなコードデータを変調し、その結果得られる変調信
号を、アンテナ１１１に供給する。送信部１１３は、図
１に示した送信部と同様に構成され、そこに入力される
ユーザの音声を、コードデータに符号化して、変復調部
１１２に供給する。受信部１１４は、変復調部１１２か
らのコードデータを受信し、そのコードデータから、図
３の音声合成装置における場合と同様の高音質の音声を
復号して出力する。

【０１４６】即ち、図１１は、図１０の受信部１１４の
構成例を示している。なお、図中、図２における場合と
対応する部分については、同一の符号を付してあり、以
下では、その説明は、適宜省略する。

【０１４７】タップ生成部１２１には、音声合成フィル
タ２９が出力する合成音が供給されるようになってお
り、タップ生成部１２１は、その合成音から、予測タッ
プとするもの（サンプル値）を抽出し、予測部１２５に
供給する。

【０１４８】タップ生成部１２２には、チャネルデコー
ダ２１が出力する、フレーム（またはサブフレーム）ご
とのＬコード、Ｇコード、Ｉコード、およびＡコードが
供給されるようになっている。さらに、タップ生成部１
２２には、演算器２８から残差信号が供給されるととも
に、フィルタ係数復号器２５から線形予測係数が供給さ
れるようになっている。タップ生成部１２２は、そこに
供給されるＬコード、Ｇコード、Ｉコード、およびＡコ
ード、さらには、残差信号および線形予測係数から、ク
ラスタップとするものを抽出し、クラス分類部１２３に
供給する。

【０１４９】クラス分類部１２３は、タップ生成部１２
２から供給されるクラスタップに基づいて、クラス分類
を行い、そのクラス分類結果としてのクラスコードを、
係数メモリ１２４に供給する。

【０１５０】ここで、Ｌコード、Ｇコード、Ｉコード、
およびＡコード、並びに残差信号および線形予測係数か
ら、クラスタップを構成し、このクラスタップに基づい
てクラス分類を行うと、そのクラス分類の結果得られる
クラス数が膨大な数になることがある。そこで、クラス
分類部１２３では、例えば、Ｌコード、Ｇコード、Ｉコ
ード、およびＡコード、並びに残差信号および線形予測
係数を要素とするベクトルをベクトル量子化して得られ
るコードを、クラス分類結果として出力するようにする
ことができる。

【０１５１】係数メモリ１２４は、後述する図１２の学
習装置において学習処理が行われることにより得られ
る、クラスごとのタップ係数を記憶しており、クラス分
類部１２３が出力するクラスコードに対応するアドレス
に記憶されているタップ係数を、予測部１２５に供給す
る。

【０１５２】予測部１２５は、図３の予測部４９と同様
に、タップ生成部１２１が出力する予測タップと、係数
メモリ１２４が出力するタップ係数とを取得し、その予
測タップとタップ係数とを用いて、式（６）に示した線
形予測演算を行う。これにより、予測部１２５は、注目
フレームの高音質の音声（の予測値）を求めて、Ｄ／Ａ
変換部３０に供給する。

【０１５３】以上のように構成される受信部１１４で
は、基本的には、図５に示したフローチャートにしたが
った処理と同様の処理が行われることで、高音質の合成
音が、音声の復号結果として出力される。

【０１５４】即ち、チャネルデコーダ２１は、そこに供
給されるコードデータから、Ｌコード、Ｇコード、Ｉコ
ード、Ａコードを分離し、それぞれを、適応コードブッ
ク記憶部２２、ゲイン復号器２３、励起コードブック記
憶部２４、フィルタ係数復号器２５に供給する。さら
に、Ｌコード、Ｇコード、Ｉコード、およびＡコード
は、タップ生成部１２２にも供給される。

【０１５５】そして、適応コードブック記憶部２２、ゲ
イン復号器２３、励起コードブック記憶部２４、演算器
２６乃至２８では、図１の適応コードブック記憶部９、
ゲイン復号器１０、励起コードブック記憶部１１、演算
器１２乃至１４における場合と同様の処理が行われ、こ
れにより、Ｌコード、Ｇコード、およびＩコードが、残
差信号ｅに復号される。この残差信号は、音声合成フィ
ルタ２９およびタップ生成部１２２に供給される。

【０１５６】さらに、フィルタ係数復号器２５は、図１
で説明したように、そこに供給されるＡコードを、線形
予測係数に復号し、音声合成フィルタ２９およびタップ
生成部１２２に供給する。音声合成フィルタ２９は、演
算器２８からの残差信号と、フィルタ係数復号器２５か
らの線形予測係数を用いて音声合成を行い、その結果得
られる合成音を、タップ生成部１２１に供給する。

【０１５７】タップ生成部１２１は、音声合成フィルタ
２９が出力する合成音のフレームを注目フレームとし、
ステップＳ１において、その注目フレームの合成音か
ら、予測タップを生成し、予測部１２５に供給する。さ
らに、ステップＳ１では、タップ生成部１２２は、そこ
に供給されるＬコード、Ｇコード、Ｉコード、およびＡ
コード、並びに残差信号および線形予測係数から、クラ
スタップを生成し、クラス分類部１２３に供給する。

【０１５８】そして、ステップＳ２に進み、クラス分類
部１２３は、タップ生成部１２２から供給されるクラス
タップに基づいて、クラス分類を行い、その結果得られ
るクラスコードを、係数メモリ１２４に供給して、ステ
ップＳ３に進む。

【０１５９】ステップＳ３では、係数メモリ１２４は、
クラス分類部１２３から供給されるクラスコードに対応
するアドレスから、タップ係数を読み出し、予測部１２
５に供給する。

【０１６０】そして、ステップＳ４に進み、予測部１２
５は、係数メモリ１２４が出力するタップ係数を取得
し、そのタップ係数と、タップ生成部１２１からの予測
タップとを用いて、式（６）に示した積和演算を行い、
注目フレームの高音質の音声（の予測値）を得る。

【０１６１】以上のようにして得られた高音質の音声
は、予測部１２５から、Ｄ／Ａ変換部３０を介して、ス
ピーカ３１に供給され、これにより、スピーカ３１から
は、高音質の音声が出力される。

【０１６２】ステップＳ４の処理後は、ステップＳ５に
進み、まだ、注目フレームとして処理すべきフレームが
あるかどうかが判定され、あると判定された場合、ステ
ップＳ１に戻り、次に注目フレームとすべきフレーム
を、新たに注目フレームとして、以下、同様の処理を繰
り返す。また、ステップＳ５において、注目フレームと
して処理すべきフレームがないと判定された場合、処理
を終了する。

【０１６３】次に、図１２は、図１１の係数メモリ１２
４に記憶させるタップ係数の学習処理を行う学習装置の
一実施の形態の構成例を示している。

【０１６４】マイク２０１乃至コード決定部２１５は、
図１のマイク１乃至コード決定部１５とそれぞれ同様に
構成される。マイク１には、学習用の音声信号が入力さ
れるようになっており、従って、マイク２０１乃至コー
ド決定部２１５では、その学習用の音声信号に対して、
図１における場合と同様の処理が施される。

【０１６５】そして、タップ生成部１３１には、自乗誤
差最小判定部２０８において自乗誤差が最小になったと
判定されたときの音声合成フィルタ２０６が出力する合
成音が供給される。また、タップ生成部１３２には、コ
ード決定部２１５が、自乗誤差最小判定部２０８から確
定信号を受信したときに出力するＬコード、Ｇコード、
Ｉコード、およびＡコードが供給される。さらに、タッ
プ生成部１３２には、ベクトル量子化部２０５が出力す
る、ＬＰＣ分析部２０４で得られた線形予測係数のベク
トル量子化結果としてのＡコードに対応するコードベク
トル（セントロイドベクトル）の要素となっている線形
予測係数と、自乗誤差最小判定部２０８において自乗誤
差が最小になったと判定されたときの演算器２１４が出
力する残差信号も供給される。また、正規方程式加算回
路１３４には、Ａ／Ｄ変換部２０２が出力する音声が、
教師データとして供給される。

【０１６６】タップ生成部１３１は、音声合成フィルタ
２０６が出力する合成音から、図１１のタップ生成部１
２１と同一の予測タップを構成し、生徒データとして、
正規方程式加算回路１３４に供給する。

【０１６７】タップ生成部１３２は、コード決定部２１
５から供給されるＬコード、Ｇコード、Ｉコード、およ
びＡコード、並びに、ベクトル量子化部２０５から供給
される線形予測係数、および演算器２１４から供給され
る残差信号から、図１１のタップ生成部１２２と同一の
クラスタップを構成し、クラス分類部１３３に供給す
る。

【０１６８】クラス分類部１３３は、タップ生成部１３
２からのクラスタップに基づいて、図１１のクラス分類
部１２３における場合と同様のクラス分類を行い、その
結果得られるクラスコードを、正規方程式加算回路１３
４に供給する。

【０１６９】正規方程式加算回路１３４は、Ａ／Ｄ変換
部２０２からの音声を、教師データとして受信するとと
もに、タップ生成部１３１からの予測タップを、生徒デ
ータとして受信し、その教師データおよび生徒データを
対象として、クラス分類部１３３からのクラスコードご
とに、図６の正規方程式加算回路８１における場合と同
様の足し込みを行うことにより、各クラスについて、式
（１３）に示した正規方程式をたてる。

【０１７０】タップ係数決定回路１３５は、正規方程式
加算回路１３４においてクラスごとに生成された正規方
程式を解くことにより、クラスごとに、タップ係数を求
め、係数メモリ１３６の、各クラスに対応するアドレス
に供給する。

【０１７１】なお、学習用の音声信号として用意する音
声信号によっては、正規方程式加算回路１３４におい
て、タップ係数を求めるのに必要な数の正規方程式が得
られないクラスが生じる場合があり得るが、タップ係数
決定回路１３５は、そのようなクラスについては、例え
ば、デフォルトのタップ係数を出力する。

【０１７２】係数メモリ１３６は、タップ係数決定回路
１３５から供給されるクラスごとの線形予測係数と残差
信号についてのタップ係数を記憶する。

【０１７３】以上のように構成される学習装置では、基
本的には、図８に示したフローチャートにしたがった処
理と同様の処理が行われることで、高音質の合成音を得
るためのタップ係数が求められる。

【０１７４】学習装置には、学習用の音声信号が供給さ
れ、ステップＳ１１では、その学習用の音声信号から、
教師データと生徒データが生成される。

【０１７５】即ち、学習用の音声信号は、マイク２０１
に入力され、マイク２０１乃至コード決定部２１５は、
図１のマイク１乃至コード決定部１５における場合とそ
れぞれ同様の処理を行う。

【０１７６】その結果、Ａ／Ｄ変換部２０２で得られる
ディジタル信号の音声は、教師データとして、正規方程
式加算回路１３４に供給される。また、自乗誤差最小判
定部２０８において自乗誤差が最小になったと判定され
たときに、音声合成フィルタ２０６が出力する合成音
は、生徒データとして、タップ生成部１３１に供給され
る。

【０１７７】さらに、ベクトル量子化部２０５が出力す
る線形予測係数、自乗誤差最小判定部２０８において自
乗誤差が最小になったと判定されたときに、コード決定
部２１５が出力するＬコード、Ｇコード、Ｉコード、お
よびＡコード、並びに演算器２１４が出力する残差信号
は、タップ生成部１３２に供給される。

【０１７８】その後、ステップＳ１２に進み、タップ生
成部１３１は、音声合成フィルタ２０６から生徒データ
として供給される合成音のフレームを注目フレームとし
て、その注目フレームの合成音から、予測タップを生成
し、正規方程式加算回路１３４に供給する。さらに、ス
テップＳ１２では、タップ生成部１３２が、そこに供給
されるＬコード、Ｇコード、Ｉコード、Ａコード、線形
予測係数、および残差信号から、クラスタップを生成
し、クラス分類部１３３に供給する。

【０１７９】ステップＳ１２の処理後は、ステップＳ１
３に進み、クラス分類部１３３が、タップ生成部１３２
からのクラスタップに基づいて、クラス分類を行い、そ
の結果得られるクラスコードを、正規方程式加算回路１
３４に供給する。

【０１８０】そして、ステップＳ１４に進み、正規方程
式加算回路１３４は、Ａ／Ｄ変換器２０２からの教師デ
ータとしての注目フレームの高音質の音声である学習用
の音声、およびタップ生成部１３２からの生徒データと
しての予測タップを対象として、式（１３）の行列Ａと
ベクトルｖの、上述したような足し込みを、クラス分類
部１３３からのクラスコードごとに行い、ステップＳ１
５に進む。

【０１８１】ステップＳ１５では、まだ、注目フレーム
として処理すべきフレームがあるかどうかが判定され
る。ステップＳ１５において、まだ、注目フレームとし
て処理すべきフレームがあると判定された場合、ステッ
プＳ１１に戻り、次のフレームを新たに注目フレームと
して、以下、同様の処理が繰り返される。

【０１８２】また、ステップＳ１５において、注目フレ
ームとして処理すべきフレームがないと判定された場
合、即ち、正規方程式加算回路１３４において、各クラ
スについて、正規方程式が得られた場合、ステップＳ１
６に進み、タップ係数決定回路１３５は、各クラスごと
に生成された正規方程式を解くことにより、各クラスご
とに、タップ係数を求め、係数メモリ１３６の、各クラ
スに対応するアドレスに供給して記憶させ、処理を終了
する。

【０１８３】以上のようにして、係数メモリ１３６に記
憶された各クラスごとのタップ係数が、図１１の係数メ
モリ１２４に記憶されている。

【０１８４】従って、図１１の係数メモリ１２４に記憶
されたタップ係数は、線形予測演算を行うことにより得
られる高音質の音声予測値の予測誤差（自乗誤差）が、
統計的に最小になるように学習を行うことにより求めら
れたものであるから、図１１の予測部１２５が出力する
音声は、高音質のものとなる。

【０１８５】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。

【０１８６】そこで、図１３は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。

【０１８７】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク３０５やＲＯＭ３
０３に予め記録しておくことができる。

【０１８８】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM(Compact DiscRead Only Memory)，
MO(Magneto optical)ディスク，DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体３１１に、一時的あるいは永続的に格納（記
録）しておくことができる。このようなリムーバブル記
録媒体３１１は、いわゆるパッケージソフトウエアとし
て提供することができる。

【０１８９】なお、プログラムは、上述したようなリム
ーバブル記録媒体３１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部３０８で受信し、内蔵するハード
ディスク３０５にインストールすることができる。

【０１９０】コンピュータは、CPU(Central Processing
Unit)３０２を内蔵している。CPU３０２には、バス３
０１を介して、入出力インタフェース３１０が接続され
ており、CPU３０２は、入出力インタフェース３１０を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部３０７が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)３０３に格納されているプログラムを実行
する。あるいは、また、CPU３０２は、ハードディスク
３０５に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部３０８で受信されてハー
ドディスク３０５にインストールされたプログラム、ま
たはドライブ３０９に装着されたリムーバブル記録媒体
３１１から読み出されてハードディスク３０５にインス
トールされたプログラムを、RAM(Random Access Memor
y)３０４にロードして実行する。これにより、CPU３０
２は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU３０２は、その処理結果を、必要に応
じて、例えば、入出力インタフェース３１０を介して、
LCD(Liquid Crystal Display)やスピーカ等で構成され
る出力部３０６から出力、あるいは、通信部３０８から
送信、さらには、ハードディスク３０５に記録等させ
る。

【０１９１】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０１９２】また、プログラムは、１のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。

【０１９３】なお、本実施の形態においては、学習用の
音声信号として、どのようなものを用いるかについて
は、特に言及しなかったが、学習用の音声信号として
は、人が発話した音声の他、例えば、曲（音楽）等を採
用することが可能である。そして、上述したような学習
処理によれば、学習用の音声信号として、人の発話を用
いた場合には、そのような人の発話の音声の音質を向上
させるようなタップ係数が得られ、曲を用いた場合に
は、曲の音質を向上させるようなタップ係数が得られる
ことになる。

【０１９４】また、図１１の実施の形態では、係数メモ
リ１２４には、タップ係数をあらかじめ記憶させておく
ようにしたが、係数メモリ１２４に記憶させるタップ係
数は、携帯電話機１０１において、図９の基地局１０２
（あるいは交換局１０３）や、図示しないＷＷＷ(World
Wide Web)サーバ等からダウンロードするようにするこ
とができる。即ち、上述したように、タップ係数は、人
の発話用や曲用等のように、ある種類の音声信号に適し
たものを、学習によって得ることができる。さらに、学
習に用いる教師データおよび生徒データによっては、合
成音の音質に差が生じるタップ係数を得ることができ
る。従って、そのような各種のタップ係数を、基地局１
０２等に記憶させておき、ユーザには、自身の所望する
タップ係数をダウンロードさせるようにすることができ
る。そして、このようなタップ係数のダウンロードサー
ビスは、無料で行うこともできるし、有料で行うことも
できる。さらに、タップ係数のダウンロードサービスを
有料で行う場合には、タップ係数のダウンロードに対す
る対価としての代金は、例えば、携帯電話機１０１の通
話料等とともに請求するようにすることが可能である。

【０１９５】また、係数メモリ１２４は、携帯電話機１
０１に対して着脱可能なメモリカード等で構成すること
ができる。この場合、上述したような各種のタップ係数
それぞれを記憶させた、異なるメモリカードを提供する
ようにすれば、ユーザは、場合に応じて、所望のタップ
係数が記憶されたメモリカードを、携帯電話機１０１に
装着して使用することが可能となる。

【０１９６】さらに、本発明は、例えば、ＶＳＥＬＰ(V
ector Sum Excited Liner Prediction)，ＰＳＩ−ＣＥ
ＬＰ(Pitch Synchronous Innovation CELP)，ＣＳ−Ａ
ＣＥＬＰ(Conjugate Structure Algebraic CELP)等のＣ
ＥＬＰ方式による符号化の結果得られるコードから合成
音を生成する場合に、広く適用可能である。

【０１９７】また、本発明は、ＣＥＬＰ方式による符号
化の結果得られるコードから合成音を生成する場合に限
らず、あるコードから、残差信号と線形予測係数を得
て、合成音を生成する場合に、広く適用可能である。

【０１９８】さらに、本実施の形態では、タップ係数を
用いた線形１次予測演算によって、残差信号や線形予測
係数の予測値を求めるようにしたが、この予測値は、そ
の他、２次以上の高次の予測演算によって求めることも
可能である。

【０１９９】また、例えば、図１１および図１２の実施
の形態では、クラスタップを、Ｌコード、Ｇコード、Ｉ
コード、およびＡコードの他、Ａコードから得られた線
形予測係数や、Ｌコード、Ｇコード、およびＩコードか
ら得られた残差信号に基づいて生成するようにしたが、
クラスタップは、その他、例えば、Ｌコード、Ｇコー
ド、Ｉコード、およびＡコードだけから生成することも
可能である。また、クラスタップは、４種類のＬコー
ド、Ｇコード、Ｉコード、およびＡコードのうちの１つ
だけ（または複数）、即ち、例えば、Ｉコードだけから
生成することも可能である。例えば、クラスタップを、
Ｉコードだけから構成する場合においては、Ｉコードそ
のものを、クラスコードとすることができる。ここで、
ＶＳＥＬＰ方式では、Ｉコードには、９ビットが割り当
てられており、従って、Ｉコードを、そのままクラスコ
ードとする場合、クラス数は、５１２（＝２⁹）とな
る。なお、ＶＳＥＬＰ方式においては、９ビットのＩコ
ードの各ビットは、１または−１という２種類の符号極
性を有するため、このようなＩコードを、クラスコード
とする場合には、例えば、−１となっているビットを０
とみなすようにすれば良い。

【０２００】さらに、ＣＥＬＰ方式では、コードデータ
に、リスト補間ビットやフレームエネルギが含められる
場合があるが、この場合、クラスタップは、ソフト補間
ビットやフレームエネルギを用いて構成することが可能
である。

【０２０１】なお、例えば、特開平８−２０２３９９号
公報には、合成音を、高域強調フィルタに通すことによ
って、その音質を改善する方法が開示されているが、本
発明は、タップ係数が学習により得られる点および用い
るタップ係数が、コードによるクラス分類結果によって
決まる点等において、特開平８−２０２３３９号公報に
記載の発明と異なる。

【０２０２】

【発明の効果】本発明の音声処理装置および音声処理方
法、並びに第１のプログラムおよび第１の記録媒体によ
れば、予測値を求めようとしている高音質の音声を注目
音声として、その注目音声を予測するのに用いる予測タ
ップが、合成音から抽出されるとともに、注目音声を、
幾つかのクラスのうちのいずれかにクラス分類するのに
用いるクラスタップが、コードから抽出される。そし
て、クラスタップに基づいて、注目音声のクラスを求め
るクラス分類が行われ、予測タップと、注目音声のクラ
スに対応するタップ係数を用いて、注目音声の予測値が
求められる。従って、高音質の合成音を生成することが
可能となる。

【０２０３】本発明の学習装置および学習方法、並びに
第２のプログラムおよび第２の記録媒体によれば、予測
値を求めようとしている高音質の音声を注目音声とし
て、その注目音声を、幾つかのクラスのうちのいずれか
にクラス分類するのに用いるクラスタップが、コードか
ら抽出され、そのクラスタップに基づいて、注目音声の
クラスを求めるクラス分類が行われる。そして、タップ
係数および合成音を用いて予測演算を行うことにより得
られる高音質の音声の予測値の予測誤差が統計的に最小
になるように、学習が行われ、クラスごとのタップ係数
が求められる。従って、そのタップ係数によって、高音
質の合成音を生成することが可能となる。

【図面の簡単な説明】

【図１】従来の携帯電話機の送信部の一例の構成を示す
ブロック図である。

【図２】従来の携帯電話機の受信部の一例の構成を示す
ブロック図である。

【図３】本発明を適用した音声合成装置の一実施の形態
の構成例を示すブロック図である。

【図４】音声合成フィルタ４４の構成例を示すブロック
図である。

【図５】図３の音声合成装置の処理を説明するフローチ
ャートである。

【図６】本発明を適用した学習装置の一実施の形態の構
成例を示すブロック図である。

【図７】予測フィルタ７４の構成例を示すブロック図で
ある。

【図８】図６の学習装置の処理を説明するフローチャー
トである。

【図９】本発明を適用した伝送システムの一実施の形態
の構成例を示す図である。

【図１０】携帯電話機１０１の構成例を示すブロック図
である。

【図１１】受信部１１４の構成例を示すブロック図であ
る。

【図１２】本発明を適用した学習装置の他の実施の形態
の構成例を示すブロック図である。

【図１３】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。

【符号の説明】

２１チャンネルデコーダ，２２適応コードブック
記憶部，２３ゲイン復号器，２４励起コードブ
ック記憶部，２５フィルタ係数復号器，２６乃至２
８演算器，２９音声合成フィルタ，３０Ｄ／
Ａ変換部，３１スピーカ，４１デマルチプレク
サ，４２フィルタ係数復号器，４３残差コードブ
ック記憶部，４４音声合成フィルタ，４５，４６
タップ生成部，４７クラス分類部，４８係数
メモリ，４９予測部，５０Ｄ／Ａ変換部，５１
スピーカ，６１加算器，６２₁乃至６２_P遅延回
路，６３₁乃至６３_P 乗算器，７１ＬＰＣ分析
部，７２ベクトル量子化部，７３フィルタ係数
復号器, ７４予測フィルタ，７５ベクトル量子
化部，７６残差コードブック記憶部，７７音声
合成フィルタ，７８，７９タップ生成部，８０
クラス分類部，８１正規方程式加算回路，８２
タップ係数決定回路，８３係数メモリ，９１₁乃
至９１_P遅延回路，９２₁乃至７２_P 乗算器，９３
加算器，１０１₁，１０１₂携帯電話機，１０
２₁，１０２₂ 基地局，１０３交換局，１１１
アンテナ，１１２変復調部，１１３送信部，
１１４受信部，１２１，１２２タップ生成部，
１２３クラス分類部，１２４係数メモリ，１２５
予測部，１３１，１３２タップ生成部，１３３
クラス分類部，１３４正規方程式加算回路，１３
５タップ係数決定回路，１３６係数メモリ，２
０１マイク，２０２Ａ／Ｄ変換部，２０３演
算器，２０４ＬＰＣ分析部，２０５ベクトル量子
化部，２０６音声合成フィルタ，２０７自乗誤
差演算部，２０８自乗誤差最小判定部，２０９適
応コードブック記憶部，２１０ゲイン復号器，２
１１励起コードブック記憶部，２１２乃至２１４
演算器，２１５コード決定部，３０１バス，
３０２ CPU，３０３ ROM，３０４ RAM，３０
５ハードディスク，３０６出力部，３０７入
力部，３０８通信部，３０９ドライブ，３１０
入出力インタフェース，３１１リムーバブル記録
媒体

───────────────────────────────────────────────────── フロントページの続き (72)発明者服部正明東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者木村裕人東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者藤森泰弘東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5D045 CA01 5J064 AA01 BB01 BB03 BC01 BC06 BC09 BC12 BD02

Claims

【特許請求の範囲】

【請求項１】所定のコードから生成される線形予測係
数と残差信号を、音声合成フィルタに与えることによっ
て得られる合成音から、その音質を向上させた高音質の
音声の予測値を予測するための予測タップを抽出し、そ
の予測タップと所定のタップ係数を用いて、所定の予測
演算を行うことにより、前記高音質の音声の予測値を求
める音声処理装置であって、前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を予測するのに用いる前記
予測タップを、前記合成音から抽出する予測タップ抽出
手段と、前記注目音声を、幾つかのクラスのうちのいずれかにク
ラス分類するのに用いるクラスタップを、前記コードか
ら抽出するクラスタップ抽出手段と、前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類手段と、学習を行うことにより求められた、前記クラスごとの前
記タップ係数の中から、前記注目音声のクラスに対応す
る前記タップ係数を取得する取得手段と、前記予測タップと、前記注目音声のクラスに対応する前
記タップ係数を用いて、前記注目音声の予測値を求める
予測手段とを備えることを特徴とするデータ処理装置。
【請求項２】前記予測手段は、前記予測タップおよび
タップ係数を用いて線形１次予測演算を行うことによ
り、前記注目音声の予測値を求めることを特徴とする請
求項１に記載のデータ処理装置。
【請求項３】前記取得手段は、クラスごとの前記タッ
プ係数を記憶している記憶手段から、前記注目音声に対
応するクラスの前記タップ係数を取得することを特徴と
する請求項１に記載のデータ処理装置。
【請求項４】前記クラスタップ抽出手段は、前記クラ
スタップを、前記コードと、そのコードを復号すること
により得られる前記線形予測係数または残差信号の中か
ら抽出することを特徴とする請求項１に記載のデータ処
理装置。
【請求項５】前記タップ係数は、前記予測タップおよ
びタップ係数を用いて所定の予測演算を行うことにより
得られる前記高音質の音声の予測値の予測誤差が、統計
的に最小になるように、学習を行うことにより得られた
ものであることを特徴とする請求項１に記載のデータ処
理装置。
【請求項６】前記音声合成フィルタをさらに備えるこ
とを特徴とする請求項１に記載のデータ処理装置。
【請求項７】前記コードは、音声を、ＣＥＬＰ(Code
Excited Liner Prediction coding)方式によって符号化
することにより得られたものであることを特徴とする請
求項１に記載のデータ処理装置。
【請求項８】所定のコードから生成される線形予測係
数と残差信号を、音声合成フィルタに与えることによっ
て得られる合成音から、その音質を向上させた高音質の
音声の予測値を予測するための予測タップを抽出し、そ
の予測タップと所定のタップ係数を用いて、所定の予測
演算を行うことにより、前記高音質の音声の予測値を求
める音声処理方法であって、前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を予測するのに用いる前記
予測タップを、前記合成音から抽出する予測タップ抽出
ステップと、前記注目音声を、幾つかのクラスのうちのいずれかにク
ラス分類するのに用いるクラスタップを、前記コードか
ら抽出するクラスタップ抽出ステップと、前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、学習を行うことにより求められた、前記クラスごとの前
記タップ係数の中から、前記注目音声のクラスに対応す
る前記タップ係数を取得する取得ステップと、前記予測タップと、前記注目音声のクラスに対応する前
記タップ係数を用いて、前記注目音声の予測値を求める
予測ステップとを備えることを特徴とするデータ処理方
法。
【請求項９】所定のコードから生成される線形予測係
数と残差信号を、音声合成フィルタに与えることによっ
て得られる合成音から、その音質を向上させた高音質の
音声の予測値を予測するための予測タップを抽出し、そ
の予測タップと所定のタップ係数を用いて、所定の予測
演算を行うことにより、前記高音質の音声の予測値を求
める音声処理を、コンピュータに行わせるプログラムで
あって、前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を予測するのに用いる前記
予測タップを、前記合成音から抽出する予測タップ抽出
ステップと、前記注目音声を、幾つかのクラスのうちのいずれかにク
ラス分類するのに用いるクラスタップを、前記コードか
ら抽出するクラスタップ抽出ステップと、前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、学習を行うことにより求められた、前記クラスごとの前
記タップ係数の中から、前記注目音声のクラスに対応す
る前記タップ係数を取得する取得ステップと、前記予測タップと、前記注目音声のクラスに対応する前
記タップ係数を用いて、前記注目音声の予測値を求める
予測ステップとを備えることを特徴とするプログラム。
【請求項１０】所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を予測するための予測タップを抽出し、
その予測タップと所定のタップ係数を用いて、所定の予
測演算を行うことにより、前記高音質の音声の予測値を
求める音声処理を、コンピュータに行わせるプログラム
が記録されている記録媒体であって、前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を予測するのに用いる前記
予測タップを、前記合成音から抽出する予測タップ抽出
ステップと、前記注目音声を、幾つかのクラスのうちのいずれかにク
ラス分類するのに用いるクラスタップを、前記コードか
ら抽出するクラスタップ抽出ステップと、前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、学習を行うことにより求められた、前記クラスごとの前
記タップ係数の中から、前記注目音声のクラスに対応す
る前記タップ係数を取得する取得ステップと、前記予測タップと、前記注目音声のクラスに対応する前
記タップ係数を用いて、前記注目音声の予測値を求める
予測ステップとを備えるプログラムが記録されているこ
とを特徴とする記録媒体。
【請求項１１】所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を、所定の予測演算によって求めるのに
用いる所定のタップ係数を学習する学習装置であって、前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を、幾つかのクラスのうち
のいずれかにクラス分類するのに用いるクラスタップ
を、前記コードから抽出するクラスタップ抽出手段と、前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類手段と、前記タップ係数および合成音を用いて予測演算を行うこ
とにより得られる前記高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、前記クラス
ごとのタップ係数を求める学習手段とを備えることを特
徴とする学習装置。
【請求項１２】前記学習手段は、前記タップ係数およ
び合成音を用いて線形１次予測演算を行うことにより得
られる前記高音質の音声の予測値の予測誤差が、統計的
に最小になるように学習を行うことを特徴とする請求項
１１に記載の学習装置。
【請求項１３】前記クラスタップ抽出手段は、前記ク
ラスタップを、前記コードと、そのコードを復号するこ
とにより得られる前記線形予測係数または残差信号の中
から抽出することを特徴とする請求項１１に記載の学習
装置。
【請求項１４】前記コードは、音声を、ＣＥＬＰ(Cod
e Excited Liner Prediction coding)方式によって符号
化することにより得られたものであることを特徴とする
請求項１１に記載の学習装置。
【請求項１５】所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を、所定の予測演算によって求めるのに
用いる所定のタップ係数を学習する学習方法であって、前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を、幾つかのクラスのうち
のいずれかにクラス分類するのに用いるクラスタップ
を、前記コードから抽出するクラスタップ抽出ステップ
と、前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、前記タップ係数および合成音を用いて予測演算を行うこ
とにより得られる前記高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、前記クラス
ごとのタップ係数を求める学習ステップとを備えること
を特徴とする学習方法。
【請求項１６】所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を、所定の予測演算によって求めるのに
用いる所定のタップ係数を学習する学習処理を、コンピ
ュータに行わせるプログラムであって、前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を、幾つかのクラスのうち
のいずれかにクラス分類するのに用いるクラスタップ
を、前記コードから抽出するクラスタップ抽出ステップ
と、前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、前記タップ係数および合成音を用いて予測演算を行うこ
とにより得られる前記高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、前記クラス
ごとのタップ係数を求める学習ステップとを備えること
を特徴とするプログラム。
【請求項１７】所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を、所定の予測演算によって求めるのに
用いる所定のタップ係数を学習する学習処理を、コンピ
ュータに行わせるプログラムが記録されている記録媒体
であって、前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を、幾つかのクラスのうち
のいずれかにクラス分類するのに用いるクラスタップ
を、前記コードから抽出するクラスタップ抽出ステップ
と、前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、前記タップ係数および合成音を用いて予測演算を行うこ
とにより得られる前記高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、前記クラス
ごとのタップ係数を求める学習ステップとを備えるプロ
グラムが記録されていることを特徴とする記録媒体。