JPH04346400A - 音声分析合成方法 - Google Patents

音声分析合成方法

Info

Publication number
JPH04346400A
JPH04346400A JP3119965A JP11996591A JPH04346400A JP H04346400 A JPH04346400 A JP H04346400A JP 3119965 A JP3119965 A JP 3119965A JP 11996591 A JP11996591 A JP 11996591A JP H04346400 A JPH04346400 A JP H04346400A
Authority
JP
Japan
Prior art keywords
noise
sound source
speech
pulse
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3119965A
Other languages
English (en)
Inventor
Masaaki Yoda
雅彰 誉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP3119965A priority Critical patent/JPH04346400A/ja
Publication of JPH04346400A publication Critical patent/JPH04346400A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、少ない情報量で品質
の高い音声を提供するための高能率音声符号化、特に、
従来のボコーダと呼ばれる音声分析合成系と波形符号化
との境界領域である2.4−4.8kb/sのビットレ
ートで高品質な音声符号化を実現する音声分析合成方法
に関するものである。
【0002】
【従来の技術】この発明に関連する従来技術として、線
形予測ボコーダとコード励振予測符号化(CELP:C
ode  Excited  Linear  Pre
diction)とがある。線形予測ボコーダは、4.
8kb/s以下の低ビットレート領域における音声符号
化方法としてこれまで広く用いられ、パーコール方式や
線スペクトル対(LSP)方式などの方式がある。これ
らの方式の詳細は、例えば斎藤、中田著“音声情報処理
の基礎”(オーム社出版)に記載されている。線形予測
ボコーダは、音声のスペクトル包絡特性を表す全極形の
フィルタとそれを駆動する音源信号の生成部とによって
構成される。駆動音源信号には、有声音に対してはピッ
チ周期パルス列、無声音に対しては白色雑音が用いられ
る。音源信号のパラメータとしては、有声・無声の区別
、ピッチ周期および振幅であり、これらのパラメータは
30ミリ秒程度の分析区間における音声信号の平均的な
特徴として抽出される。線形予測ボコーダでは、このよ
うに一定の分析区間毎に抽出した音声の特徴パラメータ
を時間的に補間して音声を合成するため、音声のピッチ
周期、振幅、およびスペクトル特性が急速に変化する場
合には、音声波形の特徴が十分な精度では再現すること
ができない。さらに、周期パルス列と白色雑音からなる
駆動音源は多様な音声波形の特徴を再現するには不十分
なため、自然性の高い合成音声を得ることは困難であっ
た。このように、線形予測ボコーダにおいて合成音声の
品質を高めるには、より音声波形の特徴を再現できる駆
動音源が必要とされてきた。
【0003】一方、コード励振予測符号化では、雑音系
列を駆動音源として音声の近接相関とピッチ相関特性を
表す2つの全極形フィルタを駆動することにより音声を
合成する。雑音系列は複数個のコードパタンとしてあら
かじめ用意され、その中から、入力音声波形と合成音声
波形との誤差を最小にするコードパタンが選択される。 その詳細は、文献Schroeder他、“Code 
 excited  linear  predict
ion(CELP)”,IEEE  Int.Conf
.on  ASSP,pp937−940,1985に
示されている。コード励振予測符号化では、コードパタ
ンの数と符号化された音声波形の再現精度は比例する関
係にある。 したがって、多くの系列パタンを用意すれば音声波形の
再現精度が高まり、それにともなって品質を高めること
ができる。しかし、音声符号化のビットレートを4kb
/s以下にするとコードパタンの数が制限され、その結
果十分な音声品質が得られなくなる。良好な音声品質を
得るには4.8kb/s程度の情報量が必要とされた。
【0004】コード励振予測符号化では音声波形そのも
のを再現するように駆動音源が決定されるのに対して、
聴覚的に鈍感な音声波形の位相成分を取り除いた後の波
形、つまり零位相化された波形を再現するように駆動音
源を決定する符号化法が提案されている。その詳細は特
願昭59−53757号“音声信号処理方法”や特願平
1−257503号“音声分析合成方法”に記載されて
いる。この方法では、駆動音源信号に対応する音声の予
測残差波形の短時間位相が近似的に零位相に等化される
ため、零位相化された音声波形はピッチ駆動時点で大き
なピークを示す波形に変換される。その結果、零位相化
された予測残差波形は元の波形よりもより少ない情報量
で符号化することが可能になった。前述の特許願“音声
分析合成方法”(特願平1−257503)では、有声
音に関して零位相化された予測残差波形(駆動音源)を
、準周期パルス列と零型フィルタのフィルタ係数とで表
現する方法が示されている。この方法では、入力音声に
混入雑音が存在しない場合には、4kb/s以下のビッ
トレートで高い音声品質を提供できる。しかし、入力音
声に周囲雑音が混入する場合、この駆動音源信号では有
声音声に重畳した雑音成分を表現することができないた
めに混入雑音が雑音性ではない別の歪みとなって符号化
音声の品質を劣化させる問題点があった。
【0005】この発明の目的は、線型予測ボコーダと波
型符号化の境界領域(2.4−4.8kb/s)におい
て、高い音声品質を有し、かつ周囲雑音耐性に優れた音
声分析合成方法を提供することにある。
【0006】
【課題を解決するための手段】この発明によれば音声分
析合成に用いられる有声音に対する駆動音源信号として
、入力音声のピッチ周期のゆらぎの大きさを制限した準
周期パルス列と雑音系列とを加え合わせた信号を用い、
この駆動音源信号により音声スペクトル包絡特性を表す
線形フィルタを駆動して音声波形を合成し、その合成さ
れた音声波形と位相等化された入力音声波形との誤差が
最小になるように、音源信号のパラメータ、つまりパル
ス系列の時間的位置と振幅、および雑音系列のパタンと
振幅を決定する。
【0007】従来のボコーダでは一定分析区間毎に求め
た平均的なピッチ周期と振幅から生成される周期パルス
列を駆動音源信号として用いているのに対して、この発
明ではピッチ周期毎にパルスの位置と振幅が与えられる
準周期パルス列と一定ブロック長をもつ雑音系列との和
で駆動音源信号を構成している。また、従来のコード励
振予測符号化では、駆動音源信号を雑音系列だけで構成
しているのに対して、この発明ではピッチ周期当たり1
個のパルス系列と一定ブロック長をもつ雑音系列との和
で駆動音源信号を構成している。更に、従来のマルチパ
ルス予測符号化法では、ピッチ周期とは無関係に決定さ
れる複数個のパルスによって駆動音源信号を構成してい
るのに対して、この発明ではピッチ当たり1個のパルス
と一定ブロック長をもつ雑音系列の和で駆動音源信号を
構成している。さらに、上記コード励振予測符号化やマ
ルチパルス符号化では、従来音源パラメータを決定する
評価基準として、入力音声波形と合成音声波形との二乗
誤差が用いられているのに対して、この発明では位相等
化音声波形と合成音声波形との二乗誤差が用いられてい
る。最後に、前記特許願“音声分析合成方法”(特願平
1−257503)では、駆動音源信号を準周期パルス
列と零型フィルタのフィルタ係数とで構成しているのに
対し、この発明では、零型フィルタの代わりに雑音系列
を用いている。
【0008】
【実施例】図1に、この発明による音声分析合成法を適
用した装置の構成を示す。入力端子1からは標本化され
た音声信号s(t)が入力される。線形予測分析部2で
は、N個の音声信号のサンプルを一旦データバッファに
蓄えた後、これらのサンプルに対して線形予測分析を行
って予測係数ai (i=1,2,…,p)を算出する
。 また、予測係数をフィルタ係数とする逆フィルタを用い
て予測残差信号e(t)を次式によって求める。Σはi
=1からpまでである。
【0009】e(t)=st −Σai s(t−i)
次に、予測残差の自己相関係数を算出し、その最大値に
対してレベル判定を行ない、当該分析フレームの有声・
無声VUVを判定する。これらの処理方法の詳細は、前
述の斎藤等による著書に記載されている。位相等化分析
部3では、音声の位相特性を零位相化する位相等化フィ
ルタ4の係数ct (n)と位相等化の基準時点t′i
 とを算出する。その構成の細部は、前述の特許願“音
声分析合成方法”(特願平1−257503)に記載さ
れている。位相等化分析部3で求められたフィルタ係数
では位相等化フィルタ4をサンプル単位毎に制御する。 この位相等化フィルタ4に端子1からの音声信号を入力
することにより位相等化音声信号sp (t)がその出
力として次式により求められる。Σはi=−M/2から
M/2までである。
【0010】sp (t)=Σct (i)s(t−i
)この分析合成法では有声音と無声音とで別々の駆動音
源を使用し、有声・無声パラメータVUVによってスイ
ッチ18が切り替えられる。まず、有声音の駆動音源の
構成を以下に説明する。有声音の駆動音源はパルス系列
生成部10と雑音コードブック12とから構成される。 パルス系列生成部10では、パルス時点ti を与える
ことによって準周期パルス系列を生成する。個々のパル
スの振幅は、パルス振幅制御部11において、ゲインm
i を乗じることによって制御される。
【0011】一方、雑音コードブック12には、一定の
ブロック長を持つ雑音系列(雑音ベクトル)が複数個蓄
えられている。雑音系列としては、例えば平均0、分散
1の正規乱数の系列が用いられる。雑音コードブック1
2から出力される雑音系列は、ピッチ相関フィルタ13
に入力され、周期性を有する雑音に変換される。ピッチ
相関フィルタ13は次のような伝達特性を持つデジタル
フィルタで実現される。
【0012】B(z)=1/(1−γb bz−Tp 
)ここで、bはピッチゲインであり、Tp はピッチ周
期、γb は周期性の強調係数である。ピッチゲインb
は、ピッチゲイン算出部5において、ピッチ周期の時間
遅れに対する位相等化予測残差信号の自己相関係数とし
て算出される。ピッチゲイン算出部5で求めたピッチゲ
インは量子化部5aで量子化され、ピッチゲインbとし
てピッチ相関フィルタ13に与えられる。ピッチ周期T
p は、準周期パルス列の隣接するパルス時点の平均間
隔として与えられる。ピッチ相関フィルタ13の出力信
号は、振幅制御部14においてゲインGVを乗じること
により、その振幅が制御される。
【0013】このようにして得られたパルス特性制御部
11からの準周期パルス系列p(t)と、振幅制御部1
4からの雑音系列v(t)とがサンプル毎に加算器15
で加算され、駆動音源信号ev (t)が生成される。 次に、無声音の駆動音源の構成を説明する。無声音に対
しては、雑音系列を駆動音源信号として用いる。有声音
の雑音コードブック12と同様に、雑音コードブック1
6には一定のブロック長を持つ雑音系列が複数個蓄えら
れている。雑音コードブック16から出力される雑音系
列は、振幅制御部17においてゲインGUを乗じること
により、その振幅が制御され、駆動音源信号eu (t
)が生成される。また、無声音の場合には音声の周期性
は弱いため、ピッチ相関フィルタは構成に含まれない。 一般に、無声音の雑音系列のブロック長は有声音の雑音
系列のブロック長とは異っている。
【0014】音声の合成は、スイッチ18で有声・無声
パラメータVUVに応じた駆動音源信号ev (t)又
はeu (t)を選択し、音声のスペクトル包絡特性を
特徴づける全極形(線形)フィルタ19を駆動すること
によって行なわれる。全極形フィルタ19は、次の伝達
特性A(z)をもつデジタルフィルタで実現される。 A(z)=1/(1+a1 z−1+…+ap z−p
)ここで、ai は線形予測係数であり、z−1は標本
化遅延、pはフィルタの次数である。合成時に用いられ
る線形予測係数ai は、線形予測分析部6において、
位相等化フィルタ4の出力位相等化音声を線形予測分析
することによって求められ、量子化部6aで量子化され
て得られる。
【0015】次に、音源パラメータの分析方法について
説明する。パルス時点算出部7では準周期パルス系のパ
ルス時点を算出する。パルス時点はその位置間隔が準周
期的になるように制限される。すなわち、図2における
パルス時点間隔Ti =ti −ti−1 は、連続す
るパルス時点間隔の差が一定値以下になるように次式に
よって制限される。
【0016】ΔTi =|Ti −Ti−1 |≦Jこ
こで、Jはパルス時点間隔の差の許容値である。パルス
時点ti は、位相等化分析部3で求められる基準時点
t′i を初期値として、上記の制限を満足するパルス
時点の系列を決定し、量子化部7aで量子化してパルス
系列生成部10へ供給する。図3は、基準時点t′i 
からパルス時点t′i の系列を生成する処理手順を示
したものである。この処理では、基準時点ti がパル
ス時点の初期値ti として入力され、まず基準時点の
数を判定し(S1 )、基準時点の数が2以下なら基準
時点をパルス時点とする。基準時点の数が3以上なら、
隣接する基準時点の時間間隔の差ΔTi を算出し(S
2 )、ΔTi に関しまず許容値J以下かを判定し(
S3 )、許容値以下ならステップS4 に移り、許容
値J以下でなければ、ΔTi の2分の1がJ以下かを
判定し(S5 )、J以下ならば、パルス時点間隔があ
き過ぎているから中間点にパルス位置を挿入してステッ
プS4 に移る(S6 )。1つおいた基準時点の間隔
ti+1 −ti−1 と、その前の基準時点の間隔t
i−1 −ti−2 との差ΔTi を求め(S7 )
、これがJ以下かを判定し(S8 )、J以下ならばパ
ルス時点間隔が狭過ぎるからパルス時点ti を除去し
てステップS4 に移る(S9 )。ステップS8 で
J以下でなければΔTi の2分の1がJ以下かを判定
し(S10)、J以下ならばti+1 とti−1 と
の中間点にパルス位置ti を修正してステップS4 
に移る(S11)。 ステップS10でJ以下でなければ基準時点に対して後
述のパルス振幅算出方法を用いて個々のパルスの振幅を
算出し(S12)、そのパルス振幅が最小のものの時点
を基準時点から削除してステップS1 に戻る(S13
)。ステップS4 では全パルス位置(時点)について
判定したかをチェックし、終了していなければステップ
S1 に戻り終了したら終りとする。以上のようにして
パルス時点の挿入、除去、修正が繰り返されてパルス時
点が決定される。
【0017】パルス振幅算出部8では、準周期パルス列
の個々のパルス振幅を算出する。各パルスの振幅は、準
周期パルス系列を用いて合成した音声波形と位相等化入
力音声波形との周波数重み付け平均二乗誤差が最小にな
るように決定する。周波数重み付け平均二乗誤差は次式
で表される。最初のΣはt=0からN−1まで、次のΣ
はj=1からnP までである。np は分析フレーム
内でのパルスの個数である。
【0018】d=Σ{(sp (t) −fz (t)
 −f(t) *Σmj δ(t−tj ))*w(t
)}2 ここで、δ(.)はデルタ関数を表し、*は畳
み込みを表す。f(t)は全極形フィルタ19のインパ
ルス応答である。fz (t)は1つ前の分析フレーム
の合成音声s′(t)を初期値として伝達特性がA(z
)のフィルタを零入力で駆動した時の初期値応答である
。w(t)は、周波数重み付けフィルタのインパルス応
答であり、伝達特性は次のように表される。
【0019】W(z)=A(z)/A(γz)ここで、
γは周波数重み付けの程度を制御するパラメータであり
、0<γ≦1の範囲の値をとり、通常は0.7−0.9
の値が用いられる。図4は、上記の平均二乗誤差を最小
にするパルス振幅が求めるためのパルス振幅算出部8の
内部の構成を示したものである。位相等化音声sp (
t)を入力として、フィルタ41でsp (t)*w(
t)を算出し、フィルタ42でfz(t)*w(t)を
算出し、加算器43においてフィルタ41の出力からフ
ィルタ42の出力を差し引いてsw (t)が求められ
る。インパルス応答算出部44では、1/A(γz)の
伝達特性をもつフィルタのインパルス応答fw (t)
を算出する。相関器45では、各パルス時点ti 毎に
、インパルス応答fw (t)と信号sw (t)との
相互共分散ψ(i)を次式で算出する。Σはt=0から
N−1までである。
【0020】ψ(i)=Σfw (t−ti )sw 
(t)また、相関器46では、各パルス時点ti ,t
j の組に関してインパルス応答の自己共分散φ(i,
j)を次式で算出する。Σはt=0からN−1までであ
る。 φ(i,j)=Σfw (t−ti )fw (t−t
j )パルス振幅算出部47では、次の連立方程式を解
くことによってパルス振幅を算出する。
【0021】
【数1】
【0022】これらパルス振幅mi は量子化部8aで
量子化して振幅制御部11に与える。雑音系列・雑音ゲ
イン算出部9では、有声音における雑音系列とそのゲイ
ン(雑音ゲイン)を決定する。雑音ゲインは、準周期パ
ルス系列と雑音系列との和を駆動音源信号として合成し
た音声波形と位相等化入力音声波形との周波数重み付け
平均二乗誤差が最小になるように決定される。雑音コー
ドブック12内のi番目の雑音系列CVi (t)、複
合した合成フィルタ1/A(z)・1/B(z)のイン
パルス応答をh(t)とすると、合成音声の周波数重み
付け平均二乗誤差は次式で与えられる。Σはt=0から
N−1までである。
【0023】di =Σ{(sp (t)− fz (
t)−p(t)*f(t)− hz (t)−GVi 
CVi *h(t))*w(t) }2 ここで、p(
t)は前述の方法で決定された準周期パルス系列、hz
 (t)は複合合成フィルタの零入力初期値応答である
。このとき、二乗誤差を最小化する最適ゲインは次式で
算出される。各Σはt=0からn−1までである。 GVi =Σz(t)y(t)/Σy2 (t)ただし
、z(t)=(sp (t)−fz (t)−p(t)
*f(t)−hz (t))*w(t)、y(t)=C
Vi (t)*h(t)*w(t)である。
【0024】図5は雑音系列・雑音ゲイン算出部9の内
部の構成を示したものである。図4のパルス振幅算出部
8で求められた信号sw (t)が入力される。フィル
タ51では、p(t)*f(t)*w(t)を算出し、
フィルタ52ではhz (t)*w(t)を算出し、加
算器53と加算器54でサンプル毎に信号間の差を求め
ることにより信号z(t)を求める。フィルタ55では
、雑音系列CVi を入力として、y(t)=CVi 
(t)*h(t)*w(t)の演算を行ない、y(t)
を求める。相関器56では、信号z(t)とy(t)間
の相関関数を、czy=Σz(t)y(t)として求め
(Σはt=0からN−1までである)、相関器57では
、信号y(t)の電力を、cyy=Σy2 (t)とし
て求める(Σはt=0からN−1までである)。割算器
59では、GVi =czy/cyyの演算を行ない、
最適ゲインが算出される。相関器58では信号z(t)
の電力czzを計算し、乗算器60ではGVi とcz
 yとの乗算を行ない、加算器61ではczzからGV
i cz y を差し引くことにより、合成音声の平均
二乗誤差di が求められる。最小値選択部62では、
雑音コードブック12に含まれる雑音系列の中から、合
成音声の平均二乗誤差di が最小となる雑音系列を選
択し、その雑音系列の番号ICVと最適雑音ゲインGV
を出力する。ゲインGVは量子化部9aで量子化されて
振幅制御部14に与えられる。
【0025】次に、無声音における最適な雑音系列及び
最適ゲインの決定方法について述べる。雑音系列・雑音
ゲイン算出部20では、無声音における雑音系列とその
ゲイン(雑音ゲイン)を決定する。雑音ゲインは、雑音
系列を駆動音源信号として合成した音声波形と位相等化
入力音声波形との周波数重み付け平均二乗誤差が最小に
なるように決定される。雑音コードブック16内のi番
目の雑音系列CUi (t)、合成フィルタ1/A(z
)のインパルス応答をf(t)とすると、合成音声の周
波数重み付け平均二乗誤差は次式で与えられる。Σはt
=0からN−1までである。
【0026】di =Σ{(sp (t) −fz (
t) −GUi CUi *f(t))*w(t) }
2 ここで、fz (t)は前述した合成フィルタの零
入力初期値応答である。このとき、二乗誤差を最小化す
る最適ゲインは次式で算出される。各Σはt=0からN
−1までである。 GUi =Σsw (t)y(t)/Σy2 (t)た
だし、sw (t)=(sp (t)−fz (t))
*w(t)、y(t)=CUi (t)*f(t)*w
(t)である。
【0027】図6は雑音系列、雑音ゲイン算出部20の
内部の構成を示したものである。位相等化音声信号sp
 (t)が入力されるフィルタ63では、sp (t)
*w(t)を算出し、フィルタ64ではfz (t)*
w(t)を算出し、加算器65でサンプル毎に信号間の
差を求めることにより信号sw (t)を求める。フィ
ルタ66では、雑音系列CUi を入力として、y(t
)=CUi (t)*f(t)*w(t)の演算を行な
い、y(t)を求める。相関器67では、信号sw (
t)とy(t)間の相関関数を、csy=Σsw (t
)y(t)として求め(Σはt=0からN−1までであ
る)、相関器68では、信号y(t)の電力を、cyy
=Σy2 (t)として求める(Σはt=0からN−1
までである)。割算器70では、GVi =czy/c
yyの演算を行ない、最適ゲインが算出される。相関器
69では信号sw (t)の電力cssを計算し、乗算
器71ではGUi とcsyとの乗算を行ない、加算器
72ではcssからGUi csyを差し引くことによ
り、合成音声の平均二乗誤差di が求められる。最小
値選択部73では、雑音コードブック16に含まれる雑
音系列の中から、合成音声の平均二乗誤差di が最小
となる雑音系列を選択し、その雑音系列の番号ICUと
最適雑音ゲインGUとを出力する。ゲインGUは量子化
部20aで量子化されて振幅制御部17が制御される。
【0028】以上述べた処理により、音声信号は有声・
無声共通に線形予測係数ai 、有声・無声パラメータ
ーVUV、また有声音ではパルス時点ti 、パルス振
幅mi 、雑音系列番号ICVと振幅GV、ピッチ相関
フィルタ係数b、無声音では雑音系列の番号ICUと振
幅GUによって表される。これらの音声パラメータは符
号化部21で符号化され、伝送あるいは蓄積される。
【0029】音声合成部では、図7に示すように復号化
部22で全ての音声パラメータを復号化した後、有声・
無声パラメータVUVに応じて駆動音源信号を復号化す
る。有声音の場合は、パルス系列生成部23において、
パルス時点ti から準周期パルス列を生成し、準周期
パルス列の個々のパルスの振幅を振幅制御部24でmi
 に制御する。また、送信側の雑音コードブック12と
同一の雑音コードブック25を用いて雑音系列の番号I
CVに対応した雑音系列を読み出す。その雑音系列をピ
ッチ相関フィルタ26を通した後、振幅制御部27で雑
音ゲインGVを乗じて雑音駆動系列を生成する。この2
つの信号系列を加算器28でサンプル毎に加算して駆動
音源信号を生成する。一方、無声音の場合は、送信側の
雑音コードブック16と同一の雑音コードブック29を
用いて雑音系列番号ICUに対応した雑音系列を読み出
し、この雑音系列に雑音ゲインGUを振幅制御部30で
乗じて駆動音源信号を生成する。スイッチ31では、有
声・無声パラメータVUVによって駆動音源信号を選択
し、選択された駆動音源信号を用いてフィルタ係数とし
て線形予測係数ai が設定された全極形フィルタ32
を駆動することによりその出力端33に合成音声が出力
される。
【0030】図1では簡略に示すために、位相等化フィ
ルタ4の出力sp (t)と全極形フィルタ19の出力
s′(A)との差を、パルス振幅算出部8、雑音ゲイン
算出部9,20にそれぞれ入力しているが、図4,5,
6から明らかなように、具体的には出力sp (t)、
s′(t)をパルス振幅算出部8、雑音ゲイン算出部9
,20へそれぞれ入力される。
【0031】
【発明の効果】この本発明による音声分析合成法の効果
を調べるために、以下の条件で分析合成音声実験をおこ
なった。0〜4kHz 帯域の音声を標本化周波数8k
Hz で標本化した後、音声信号に分析窓長30msの
ハミング窓を乗じ、分析次数を12次として自己相関法
による線形予測分析を行い、12個の予測係数と有声・
無声パラメータを求める。符号化の分析フレーム長は2
5ms(160音声サンプル)とする。予測係数はLS
Pパラメータのユークリッド距離を用いて多段ベクトル
量子化する。 また、複数個のパルス振幅はまとめてベクトルとみなし
て、ベクトル量子化する。雑音ゲインはスカラー量子化
する。パルス時点は、フレーム内の先頭のパルス位置、
2番めのパルス時点と1番めのパルス時点との間隔、3
番めのパルス以降は隣接するパルス時点の間隔の差をそ
れぞれ符号化した。雑音系列のブロック長は、有声音の
場合は20ms(160サンプル)、無声音の場合は5
ms(40サンプル)とした。ビットレートが3.7k
b/sの場合、フレーム当たりのビット数は74ビット
であり、その内訳は次の様になる。
【0032】       パラメータ              
                  ビット数/フレ
ーム      予測係数             
                         
24      有声・無声パラメータ       
                   1     
 駆動音源(有声の場合)パルス時点        
      30                 
           パルス振幅         
     8                   
         雑音系列の数          
  6                      
      雑音ゲイン              
3                        
    ピッチ予測フィルタ係数  2      駆
動音源(無声の場合)雑音系列の数         
   36(=9×4)              
              雑音ゲイン      
        12=(3×4)上記の条件で符号化
された音声は、従来のボコーダにくらべてはるかに高い
自然性をもち、高い音声品質が達成される。また、従来
のボコーダにくらべて話者に対する音声品質の依存性は
小さい。また、従来のマルチパルス予測符号化やコード
励振形予測符号化とくらべても、符号化音声の品質が高
いことが確認された。符号化で生じる時間遅延は60m
sであり、低ビットレート領域における従来の方法と同
程度以下である。また、入力音声に周囲雑音が混入した
場合にも、雑音が混じった音声がそのまま再現され、従
来の準周期パルス音源だけを用いる場合に比べてより自
然な音声が得られ、周囲雑音耐性が改善されている。
【0033】この発明の効果は、4kb/s以下の低ビ
ットレートで極めて自然な音声品質と周囲雑音に対する
耐性を有する音声符号化が実現できることにある。
【図面の簡単な説明】
【図1】この発明による音声分析合成法を適用した装置
の構成を示すブロック図。
【図2】準周期パルス駆動音源信号の説明図。
【図3】パルス時点を生成する処理例を示す流れ図。
【図4】パルス振幅算出部8の具体例を示すブロック図
【図5】有声音に対する雑音系列・雑音ゲイン算出部9
の具体例を示すブロック図。
【図6】無声音に対する雑音系列・雑音ゲイン算出部2
0の具体例を示すブロック図。
【図7】この発明による音声分析合成法を適用した合成
装置の構成を示すブロック図。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  音声スペクトル包絡特性を表す線形フ
    ィルタと、その線形フィルタを駆動する音源信号を生成
    する音源信号生成部とを用いた音声分析合成方法におい
    て、ピッチ周期のゆらぎの大きさを制限した準周期パル
    ス列と、雑音系列とを混合した信号を上記音源信号とし
    、その音源信号で上記線形フィルタを駆動して音声信号
    を合成し、入力音声の位相をピッチ周期的に零位相化し
    た後の位相等化音声信号と上記合成された音声信号との
    誤差が最小になるように、上記音源信号生成部の音源信
    号生成パラメータを決定する、ことを特徴とする音声分
    析合成方法。
JP3119965A 1991-05-24 1991-05-24 音声分析合成方法 Pending JPH04346400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3119965A JPH04346400A (ja) 1991-05-24 1991-05-24 音声分析合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3119965A JPH04346400A (ja) 1991-05-24 1991-05-24 音声分析合成方法

Publications (1)

Publication Number Publication Date
JPH04346400A true JPH04346400A (ja) 1992-12-02

Family

ID=14774584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3119965A Pending JPH04346400A (ja) 1991-05-24 1991-05-24 音声分析合成方法

Country Status (1)

Country Link
JP (1) JPH04346400A (ja)

Similar Documents

Publication Publication Date Title
US5457783A (en) Adaptive speech coder having code excited linear prediction
US7599832B2 (en) Method and device for encoding speech using open-loop pitch analysis
USRE43099E1 (en) Speech coder methods and systems
US5953697A (en) Gain estimation scheme for LPC vocoders with a shape index based on signal envelopes
US6169970B1 (en) Generalized analysis-by-synthesis speech coding method and apparatus
JPH02249000A (ja) 音声符号化方式
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3531780B2 (ja) 音声符号化方法および復号化方法
JPH0782360B2 (ja) 音声分析合成方法
US5235670A (en) Multiple impulse excitation speech encoder and decoder
JP3583945B2 (ja) 音声符号化方法
JP3303580B2 (ja) 音声符号化装置
JPS6238500A (ja) 高能率音声符号化方式とその装置
JPH05265495A (ja) 音声符号化装置並びにその分析器及び合成器
JPH04346400A (ja) 音声分析合成方法
JP3481027B2 (ja) 音声符号化装置
JP3299099B2 (ja) 音声符号化装置
JP3296411B2 (ja) 音声符号化方法および復号化方法
JP3552201B2 (ja) 音声符号化方法および装置
JP3199128B2 (ja) 音声の符号化方法
JP2853170B2 (ja) 音声符号化復号化方式
JPH08320700A (ja) 音声符号化装置
KR950001437B1 (ko) 음성부호화방법
JP3103108B2 (ja) 音声符号化装置
CA2214584A1 (en) Speech signal encoding system capable of transmitting a speech signal at a low bit rate without carrying out a large volume of calculation