JP2829978B2 - 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 - Google Patents

音声符号化復号化方法及び音声符号化装置並びに音声復号化装置

Info

Publication number
JP2829978B2
JP2829978B2 JP63208201A JP20820188A JP2829978B2 JP 2829978 B2 JP2829978 B2 JP 2829978B2 JP 63208201 A JP63208201 A JP 63208201A JP 20820188 A JP20820188 A JP 20820188A JP 2829978 B2 JP2829978 B2 JP 2829978B2
Authority
JP
Japan
Prior art keywords
pitch
signal
section
parameter
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63208201A
Other languages
English (en)
Other versions
JPH0258100A (ja
Inventor
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP63208201A priority Critical patent/JP2829978B2/ja
Publication of JPH0258100A publication Critical patent/JPH0258100A/ja
Application granted granted Critical
Publication of JP2829978B2 publication Critical patent/JP2829978B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声符号化復号化方法及び音声符号化装置
並びに音声復号化装置に関し、特に、音声信号を低いビ
ットレート、特に4.8kb/s程度以下で、比較的少ない演
算量により商品質に符号化し、復号化できるようにする
ための音声符号化復号化方法及びその符号化、復号化の
ための装置に関する。
〔従来の技術〕
音声信号を4.8kb/s程度の低いビットレートで符号化
する方式としては、例えば特願昭59−272435号や特願昭
60−178911号明細書等に開示されているピッチ補間マル
チパルス法が知られている。この方法では、送信側で
は、フレーム毎の音声信号から音声信号のスペクトル特
性を表すスペクトルパラメータとピッチパラメータを抽
出し、有声区間では、1フレームの音源信号を、1フレ
ームをピッチ区間毎に分割した複数個のピッチ区間のう
ちの一つのピッチ区間(代表区間)についてマルチパル
スで表し、代表区間におけるマルチパルスの振幅,位置
とスペクトル、ピッチパラメータを伝送する。また、無
声区間では、1フレームの音源を少数のマルチパルスと
雑音信号で表し、マルチパルスの振幅,位置と雑音信号
のゲイン,インデクスを伝送する。
一方、受信側においては、有声区間では、代表区間の
マルチパルスと隣接フレームのマルチパルスとを用いて
マルチパルス同士を補間して代表区間以外のピッチ区間
のパルスを復元し、フレームの駆動音源信号を復元す
る。また、無声区間では、マルチパルスと雑音信号のイ
ンデクス,ゲインを用いてフレームの音源信号を復元す
る。さらに、復元した駆動音源信号を、スペクトルパラ
メータを用いた合成フィルタに入力して合成音声信号を
出力する。
〔発明が解決しようとする課題〕
しかしながら、上述した従来方式では、有声区間では
代表区間のマルチパルス同士の補間によりフレームの駆
動音源信号を復元しているので、母音連鎖の母音から母
音へ遷移する部分や有声の過渡部など、音声信号の特性
が変化しているフレームでは、補間により復元した駆動
音源信号は大きく劣化し、その結果、合成音声の音質が
劣化していた。このような音声の特性が大きく変化する
部分は、音韻知覚や自然性の知覚に非常に重要であるこ
とが知られているが、従来方式ではこれらの部分の情報
が十分に復元できないので音質が劣化するという大きな
問題点があった。
本発明の目的は、上述した問題点を解決し、比較的少
ない演算量により低いビットレートでも音質の良好な音
声符号化復号化方法及びその方法に適した音声符号化装
置、音声復号化装置を提供することにある。
〔課題を解決するための手段〕
本発明の音声符号化復号化方法は、 送信側において、離散的な音声信号を入力し、あらか
じめ定められた時間長のフレームに分割し、前記音声信
号から有声無声判別情報を求め、前記音声信号からフレ
ーム毎にスペクトル包絡を表すスペクトルパラメータと
ピッチを表すピッチパラメータとを抽出し、前記判別情
報が有声のときは前記フレーム区間をそのピッチ情報に
応じたピッチ区間に分割し、前記音声信号の音源信号
を、前記ピッチ区間のうち1つのピッチ区間で求めたマ
ルチパルス列と、他のピッチ区間では前記入力音声と前
記マルチパルスに基づく相関係数から計算した補正情報
で表し、前記判別情報が無声のときは前記音声信号の音
源信号をマルチパルスと雑音の組合せで表し、前記スペ
クトルパラメータとピッチパラメータと判別情報と音源
情報を組み合わせて伝送し、 受信側では、有声のときは、前記1つのピッチ区間の
マルチパルスと前記マルチパルスに関する補正情報と前
記ピッチパラメータを用いて前記フレームの駆動音源信
号を復元し、無声のときは前記雑音と前記マルチパルス
列の組合せを用いて前記フレームの駆動音源信号を復元
し、前記スペクトルパラメータを用いて合成音声信号を
求めることを特徴としている。
また、本発明の音声符号化装置は、 入力した離散的な音声信号をあらかじめ定められた時
間長のフレームに分割し、前記音声信号から有声無声判
別情報を求め、前記音声信号からフレーム毎にスペクト
ル包絡を表すスペクトルパラメータとピッチを表すピッ
チパラメータとを抽出し符号化するパラメータ計算手段
と、 前記判別情報が有声のときは前記フレーム区間をその
ピッチ情報に応じたピッチ区間に分割し、前記音声信号
の音源信号を、前記ピッチ区間のうち1つのピッチ区間
で求めたマルチパルス列と、他のピッチ区間では前記入
力音声と前記マルチパルスに基づく相関係数から計算し
た振幅あるいは位相の少なくとも一方を補正する補正情
報を求めて符号化し、前記判別情報が無声のときは、前
記音声信号の音源信号をマルチパルスと雑音の組合せで
表して符号化する音源信号計算手段と、 前記パラメータ計算手段の出力符号と前記音源信号計
算手段の出力符号とを組み合わせて出力するマルチプレ
クサとを有することを特徴としている。
更に、本発明の音声復号化装置は、 スペクトルパラメータを表す符号とピッチパラメータ
を表す符号と音源信号を表す符号と判別情報を表す符号
とを分離して復号化する手段と、 前記判別情報が有声の場合はフレームを前記符号化し
たピッチパラメータに応じたピッチ区間に分割し、1つ
のピッチ区間についてマルチパルスを発生し、他のピッ
チ区間について前記マルチパルス列に関して振幅あるい
は位相の少なくとも一方を補正する補正情報を用いてマ
ルチパルスを発生させて前記フレームの駆動音源信号を
復元し、前記判別情報が無声の場合はマルチパルスと雑
音の組合せを用いて前記フレームの駆動音源信号を復元
する駆動信号復元手段と、 駆動音源と前記復号したスペクトルパメータを用いて
合成音声を求め出力する合成フィルタとを有することを
特徴としている。
〔作用〕
本発明によれば、有声区間の音源信号を、フレームを
ピッチ周期に分割して1つのピッチ区間(代表区間)の
マルチパルスと他のピッチ区間では補正情報を用いて表
すことが可能となる。補正情報としては、より望ましく
は振幅補正係数、位置補正係数とすることができる。
かかる音源信号の処理は、従来のものにおける駆動音
源信号の劣化回避に有効であり、音声の特性が大きく変
化する部分であっても音質の良好な合成音声を得ること
を可能ならしめる。また、有声区間以外では、雑音とマ
ルチパルスの組合せにより音源信号を表すことができる
ので、種々の子音に対しても良好な合成音声を得られ
る。
〔実施例〕
次に、本発明の実施例について図面を参照して説明す
る。
第1図は本発明による音声符号化復号化方法とそのた
めの符号化装置及び復号化装置の一実施例を示すブロッ
クである。また、第2図は有声フレームでの代表区間と
代表区間のマルチパルス及び振幅補正係数、位相補正係
数を説明するための図である。
第1図に示すように、音声信号の符号化,復号化処理
のための伝送系は、送信側の符号化装置と受信側の復号
化装置とから構成される。
本実施例では、送信側は、バッファメモリ110を備え
ると共に、ピッチ分析回路130と、ピッチ符号化回路150
と、スペクトルパラメータを表すパラメータとしてのK
パラメータのためのKパラメータ計算回路140と、Kパ
ラメータ符号化回路160とを有する。
更に、インパルス応答計算回路170と、自己相関関数
計算回路180と、減算器190と、重み付け回路200と、相
互相関関数計算回路210と、音源信号計算回路220と、符
号化回路230と、マルチプレクサ260とを備えると共に、
振幅・位相補正係数計算回路270と、雑音メモリ225と、
駆動信号復元回路283と、合成フィルタ281と、補間回路
282とを備えて構成されている。
送信側では、符号100で示す入力端子に音声信号が供
給され、ピッチ符号化回路150、Kパラメータ符号化回
路160及び符号化回路230の各出力が供給されるマルチプ
レクサ260を介して符号化出力が受信側へ送出される。
受信側は、第1図に示すように、デマルチプレクサ29
0と、音源復号回路300と、雑音メモリ310と、復号回路3
15と、ピッチ復号回路320と、Kパラメータ復号回路330
を備えると共に、駆動信号復元回路340の他、補間回路3
35、合成フィルム回路350を含んで構成されており、デ
マルチプレクサ290に送信側からの符号化出力が供給さ
れ、出力端子360を通して合成音声が取り出される。
入力端子100に入力される音声信号の符号化,復号化
処理は、送信側では、離散的な音声信号を入力し前記音
声信号からフレーム毎にスペクトル包絡を表すスペクト
ルパラメータとピッチを表すピッチパラメータとを抽出
して前記フレーム区間を前記ピッチ情報に応じたピッチ
区間に分割し、前記音声信号の音源信号を前記ピッチ区
間のうち1つのピッチ区間のマルチパルスと前記マルチ
パルスに関する補正情報もしくは雑音とパルス列との組
合せで表し、受信側では、前記1つのピッチ区間のマル
チパルスと前記マルチパルスに関する補正情報もしくは
前記雑音とパルス列との組合せと前記ピッチパラメータ
とを用いて前記フレームの駆動音源信号を復元し前記ス
ペクトルパラメータを用いて合成音声信号を求めること
によって行われる。
以下、まず、これについて第2図に示す例を参照して
その原理を説明する。
第1図に示した本発明に従う音声符号化復号化方法及
び装置は、有声区間では、フレーム区間をピッチ周期毎
のピッチ区間に分割し、前記ピッチ区間のうちの1つの
ピッチ区間(代表区間)についてマルチパルスを求め、
同一フレーム内の他のピッチ区間については前記マルチ
パルスに対する振幅補正係数ck,位相補正係数dkを求
め、そして、フレーム毎に、音源情報として代表区間の
フレーム内のピッチ位置、代表区間のマルチパルスの振
幅,位置と同一フレームの他のピッチ区間の振幅補正数
ck,位相補正係数dkを伝送し、さらに、補助情報として
スペクトルパラメータ、ピッチパラメータ、有声/無声
判別情報を伝送することを特徴とする。代表区間は、最
も良好な合成音声号が求められる区間を探索して求めて
もよいし、フレーム内で固定としてもよい。音質は前者
の方が良好であるが、演算量は多くなる。
以下で振幅補正係数ck,位相補正係数dkの求め方、代
表区間の探索法を示す。今、フレームで求めた平均ピッ
チ周期をTとする。1フレームの音声波形フレームをT
毎のサブブレーム区間に分割した様子を第2図(a),
(b)に示す。ここでは、代表区間を探索する場合につ
いて示す。代表区間の候補となるサブフレームを例えば
サブフレームとする。サブフレームについて予め定
められた個数Lのマルチパルスの振幅,位置を求める。
マルチパルスの求め方については、相互相関関数Φxh
自己相関関数Rhhを用いて求める方法が知られており、
これは例えば前記各特許出願明細書や、Araseki,Ozawa,
Ono,Ochiai氏による“Multi−pulse Excited Speech Co
der Based on Maximum Cross−correlation Search Alg
orithm,"(GLOBECOM 83,IEEE Global Telecommunicatio
ns Conference、講演番号23.3、1983)(文献1)に記
載されているので、ここではその詳細な説明は省略す
る。
代表区間のマルチパルスの振幅,位置をそれぞれgi,m
i(i=1〜L)とする。これを第2図(c)に示す。
代表区間以外の区間kにおける振幅補正計数ck,位相補
正係数dkは、これらと合成フィルタを用いて区間kにつ
いて合成した合成音(n)と、該当区間の音声x
k(n)との重み付け誤差電力Ekを最小化するように求
めることができる。重み付け誤差電力Ekは、次式(1)
で与えられる。
ただし、(1)式中(n)は、 である。
ここで、w(n)は聴感重み付けフィルタのインパル
ス応答を示す。ただし、このフィルタはなくてもよい。
また、h(n)は音声を合成するための合成フィルタの
インパルス応答を示す。ck,dkは(1)式を最小化する
ように求めることができる。このためには例えばまずdk
を固定して、(1)式をckについて偏微分として0とお
き、次式を得る。
ここで、xwk(n),wk(n)は、それぞれ である。
従って、(3)式の値を種々のdkの値について求め、
(3)式のckを最小化するdk,ckの組合せを求めること
により(1)式のEkは最小化される。このようにして、
代表区間以外のピッチ区間に対してck,dkを求めフレー
ム全体に対して次式で定義される誤差電力Eを次式
(5)で求める。
ここで、Nはフレームに含まれるサブフレームの個数
である。ただし、代表ピッチ区間(第2図の例ではサブ
フレーム区間)の重み付け誤差電力E2は次式で求め
る。
代表ピッチ区間の探索は、全ての代表ピッチ区間の候
補について、(1)〜(6)式の値を求め、(5)式の
値を最も小さくする区間を代表ピッチ区間とすることが
できる。第2図(c)に探索後の代表ピッチ区間がサブ
フレームであった場合について、代表区間のマルチパ
ルスと、代表区間以外のk番目の区間(第2図(c)で
はk=1,2,4,5)の音源vk(n)を次式に従い発生させ
た例を示す。
以上説明した方法により、有声区間では、フレーム毎
に代表区間を探索して代表区間のマルチパルスの振幅と
位置、他のピッチ区間の振幅,位相補正係数ck,dkを音
源情報として伝送し、さらに補助情報として合成フィル
タのスペクトルパラメータ、ピッチパラメータを伝送す
ることにより、従来方式の問題点を解決し4.8kb/s程度
でも良好な音質を提供できる。
一方、無声区間では音源をマルチパルスと雑音の組合
せで表している。この具体的な構成については、前記特
願昭60−178911号明細書等を参照できる。
更に、第1図の送信側及び受信側の各要素の動作を含
めつつその符号化処理、復号化処理の内容を具体的に説
明する。
第1図において、送信側では、入力端子100から音声
信号を入力し、1フレーム分の音声信号をバッファメモ
リ110に格納する。ピッチ分析回路130は、フレームの音
声信号から平均ピッチ周期Tを計算する。この方法とし
ては、例えば自己相関法に基づく方法が知られており、
詳細は前記の各特許出願のピッチ抽出回路を参照するこ
とができる。また、この方法以外にも他の周知な方法
(例えば、ケプストラム法、SIFT法、変相関法など)を
用いることができる。ピッチ符号化回路150は、平均ピ
ッチ周期Tを予め定められたビット数で量子化して得た
符号をマルチプレクサ260へ出力するとともに、これを
復号化して得た平均ピッチ周期T′を音源信号計算回路
220、補間回路282、駆動信号復元回路283へ出力する。
Kパラメータ計算回路140は、フレームの音声信号の
スペクトル特性を表すパラメータとして、Kパラメータ
を前記フレームの音声信号から周知のLPC分析を行い予
め定められた次数Mだけ計算する。この具体的な方法に
ついては、前記各特許出願のKパラメータ計算回路を参
照することができる。なお、KパラメータはPARCOR係数
同一のものである。Kパラメータ符号化回路160は、前
記Kパラメータを予め定められた量子化ビット数で量子
化して得た符号lKをマルチプレクサ260へ出力するとと
もに、これを復号化してさらに線形予測係数ai′(i=
1〜M)に変換して重み付け回路200、補間回路282、イ
ンパルス応答計算回路170へ出力する。Kパラメータの
符号化、Kパラメータから線形予測係数への変換の方法
については前記各特許出願明細書を参照することができ
る。
インパルス応答計算回路170は、前記線形予測係数を
用いて、聴感重み付けを行った合成フィルタのインパル
ス応答hw(n)を計算し、これを自己相関関数計算回路
180へ出力する。自己相関関数計算回路180は、前記イン
パルス応答の自己相関関数Rhh(n)を予め定められた
遅れ時間まで計算して出力する。インパルス応答計算回
路170、自己相関関数計算回路180の動作は前記各特許出
願明細書を参照することができる。
減算器190は、フレームの音声信号x(n)から合成
フィルタ281の出力を1フレーム分減算し、減算結果を
重み付け回路200へ出力する。重み付け回路200は前記減
算結果をインパルス応答がw(n)で表される聴感重み
付けフィルタに通し、重み付け信号xw(n)を得てこれ
を出力する。重み付けの方法は前記各特許出願を参照で
きる。
相互相関関数計算回路210は、重み付け信号xw(n)
とインパルス応答hw(n)を入力して相互相関関数Φxh
を予め定められた遅れ時間まで計算し出力する。この計
算法は前記各特許出願明細書を参照できる。
音源信号計算回路220は、ピッチゲインPgを予め定め
られたしきい値Thと比較して有声,無声の判別を行う。
すなわち、Pg>Thのときは有声、Pg<Thのときは無声と
判別する。次に有声区間では、前記原理の項で説明した
ように、復号化した平均ピッチ周期T′を用いてフレー
ムを予めピッチ周期毎のサブフレームに分割し、音源信
号として、代表的な1ピッチ区間(代表区間)の候補と
なるピッチ区間に対してマルチパルスの位置と振幅を求
める。
次に振幅・位相補正係数計算回路270は、前記
(3),(4a),(4b)式に従い、他のピッチ区間kに
おける音源信号発生のためのマルチパルスの振幅補正係
数ck、位相補正係数dkを計算する。さらに、これらの値
を音源信号計算回路220へ出力し、音源信号計算回路220
では前記(1),(5),(6)式に基づき、いくつか
の候補区間についてフレーム全体の誤差電力Eを計算
し、Eを最も小さくするピッチ区間を代表区間として選
択し、代表区間のサブフレーム番号を示す情報P1、代表
区間のマルチパルスの振幅gi,位置mi(i=1〜L)、
及び他のピッチ区間の振幅補正係数ck,位相補正係数dk
を出力する。
一方、無声区間では、予め定められた個数のマルチパ
ルスと雑音信号で音源信号を表す。複数種類の雑音信号
が予め雑音メモリ225に格納されており、雑音の種類を
表すインデクスとゲインを求める。これらの計算はフレ
ームを予め定められた区間長に分割したサブフレーム毎
に行う。具体的な方法は、前記特願昭60−178911号明細
書を参照することができる。この場合、音源信号として
伝送するのは、マルチパルスの振幅,位置と雑音信号の
インデクスとゲインである。
符号化回路230は、代表区間のマルチパルスの振幅gi,
位置miを予め定められたビット数で符号化して出力す
る。また、代表区間のサブフレームを示す情報P1、振幅
補正係数ck、位相補正係数dkを予め定められたビット数
で符号化してマルチプレクサ260へ出力する。さらに、
これらを復号化して駆動信号復元回路283へ出力する。
駆動信号復元回路283は、有声区間では、平均ピッチ
周期T′を用いてフレームを前記音源信号計算回路220
と同様な方法で分割し、代表区間のサブフレームを示す
情報P1、代表区間のマルチパルスの復号化された振幅,
位置を用いて、代表区間にはマルチパルスを発生し、代
表区間以外のピッチ区間では、前記代表区間のマルチパ
ルスと復号化された振幅補正係数、復号化された位相補
正係数を用いて、前記(7)式に従い音源信号vk(n)
を復元する。
一方、無声区間では、マルチパルスを発生させ、さら
に雑音信号のインデクスを用いて雑音メモリ225から雑
音信号をアクセスしてそれにゲインを乗じて音源信号を
復元する。無声区間での音源信号の復元法の詳細は前記
特願昭60−178911号明細書を参照することができる。
補間回路282は、有声区間では、線形予測係数を一旦
Kパラメータに変換してKパラメータ上でピッチ周期
T′のサブフレーム区間毎に補間し、線形予測係数に逆
交換し出力する。無声区間では補間は行わない。
合成フィルタ281は、前記復元された音源信号を入力
し、前記線形予測係数を入力して1フレーム分の合成音
声信号を求めるとともに、次のフレームへの影響信号を
1フレーム分計算しこれを減算器190へ出力する。な
お、影響信号の計算法は特願昭57−231605号明細書等を
参照できる。
マルチプレクサ260は、音源信号を表す符号、有声・
無声を表す符号、有声区間では代表区間のサブフレーム
を表す符号、平均ピッチ周期の符号、Kパラメータを表
す符号を組み合わせて出力する。
以上が本実施例の送信側の動作についての説明であ
る。
このように、入力した離散的な音声信号からフレーム
毎にスペクトル包絡を表すスペクトルパラメータとピッ
チを表すピッチパラメータを抽出し符号化するパラメー
タのための計算回路と、前記フレーム区間を前記ピッチ
パラメータに応じたピッチ区間に分割し前記フレーム毎
の音声信号の音源信号として前記ピッチ区間の内の1つ
のピッチ区間のマルチパルスと他のピッチ区間において
前記マルチパルスに関して振幅あるいは位相の少なくと
も一方を補正するための補正情報もしくは雑音とパルス
列との組合せを求めて符号化する音源信号のための計算
回路と、前記パラメータのための計算回路の出力符号と
前記音源信号のための計算回路の出力符号とを組み合わ
せて出力するマルチプレクサ回路とを有する構成の音声
符号化装置によって、本発明に係る送信側での音声符号
化処理を実現することができる。
一方、これに対する受信側での音声復号化処理は、ス
ペクトルパラメータを表す符号とピッチパラメータを表
す符号と音源信号を表す符号とをデマルチプレクサで分
離して復号化するための回路と、フレームを前記復号し
たピッチパラメータに応じたピッチ区間に分割し1つの
ピッチ区間についてマルチパルスを発生し他のピッチ区
間において前記マルチパルスに関して振幅あるいは位相
の少なくとも一方を補正する補正情報を用いてパルスを
発生させて前記フレームの駆動音源信号を復元するか、
もしくは雑音とパルス列の組合せを用いて前記フレーム
の駆動音源信号を復元する駆動信号復元回路と、前記駆
動音源と前記復号したスペクトルパラメータとを用いて
合成音声を求め出力する合成フィルタとを有する構成の
音声復号化装置によって実現することができる。
すなわち第1図の場合は、受信側では、まず、デマル
チプレクサ290は前記組み合わされた符号を入力し、音
源信号を表す符号、有声・無声を表す符号、有声区間で
は代表区間のサブフレームを表す符号、平均ピッチ周期
の符号、Kパラメータを表す符号を分離して出力する。
音源復号回路300は音源信号を表す符号を復号して駆
動信号復元回路340へ出力する。ピッチ復号回路320は平
均ピッチ周期を復号して駆動信号復元回路340と補間回
路355へ出力する。復号回路315は、振幅補正係数,位相
補正係数を表す符号を入力しこれらを復号して出力す
る。また代表区間のサブフレームを表す符号を復号して
出力する。
Kパラメータ復号回路330はKパラメータを表す符号
を復号して補間回路335へ出力する。
駆動信号復元回路340は、復号化した音源情報の他
に、有声・無声情報、有声の場合は復号化した平均ピッ
チ周期、復号化した振幅補正係数、復号化した位相補正
係数、復号化した代表区間のサブフレーム位置を入力
し、送信側の駆動信号復元回路283と同一の動作を行
い、1フレームの駆動音源信号を復元して出力する。ま
た、雑音メモリ310は送信側の雑音メモリ225と同一の構
成となっている。
補間回路355は、送信側の補間回路282と同一の動作を
行い、有声区間ではKパラメータを復号した平均ピッチ
周期毎に直線補間し、さらにこれを線形予測係数に変換
して出力する。
合成フィルタ回路350は、復元したフレームの駆動音
源信号と線形予測係数を入力して1フレーム分の合成音
声(n)を計算して端子360を通して出力する。ここ
で合成フィルタの動作は、前記特願昭57−231605号明細
書に開示の合成フィルタを参照できる。
以上で本実施例の受信側の説明を終える。
上述した実施例はあくまで本発明の一構成に過ぎずそ
の変形例も種々考えられる。
例えば、前記実施例では、有声区間以外では音源信号
を少数のマルチパルスと雑音信号で表したが、これは周
知の確率符号化(Stochastic coding)の方法により表
すこともできる。この方法の詳細については、例えばSc
hroeder,Atal氏による“Code−excitedlinear predicti
on(CELP):Highquality speech at very low bit rate
s,"(ICASSP,937−940,1985)(文献2)等を参照でき
る。さらに、雑音メモリ225,310に格納されている雑音
信号の求め方としては、予め定められた確率密度特性
(例えばガウス分布など)を有する白色雑音信号を格納
しておいてもよいし、予め多量の音声信号を予測して求
めた予測残差信号から学習により計算しておいてもよ
い。後者の方法については、例えば、Makhoul氏らによ
る“Vector Quantization in Speech Coding,"(Proc.I
EEE,vol.73,11,1551−1588,1985)(文献3)等を参照
できる。
また、実施例では、フレームの音声信号を有声区間と
無声区間の2種に分類して異なる音源信号を用いたが、
この分類数を増やしてもよい。例えば、音声学的な知見
を利用して、母音,鼻音,摩擦音,破裂音等に分類して
それぞれ異なる音源信号を用いてもよい。
また、実施例では、スペクトルパラメータとしてKパ
ラメータを符号化し、その分析法としてLPC分析を用い
たが、スペクトルパラメータとしては他の周知なパラメ
ータ、例えばLPS、ケプストラム、改良ケプストラム、
一般化ケプストラム、メルケプストラムなどを用いるこ
ともできる。また、各パラメータに最適な分析法を用い
ることができる。また、補間回路282,335における補間
すべきパラメータ及びその補間法については、他の周知
な方法を用いることができる。具体的な補間法は、例え
ばAtal氏らによる“Speech Analysis and Synthesis by
Linear Prediction of Speech Wave"と題した論文(J.
Acoust.Soc.Am.,pp.637−655,1971)(文献4)等を参
照できる。
さらに、有声区間では、代表区間以外のピッチ区間で
は、振幅補正係数ckと位相補正係数dkを求めて伝送した
が、復号化した平均ピッチ周期T′をピッチ区間毎に補
間することにより位相補正係数を伝送しない構成とする
こともできる。また振幅補正係数は、ピッチ区間毎に伝
送するのではなくてピッチ区間毎に求めた振幅補正係数
の値を最小2乗曲線あるいは最小2乗直線で近似して、
前記曲線あるいは直線の係数を伝送するような構成にし
てもよい。これらにより補正情報の伝送のための情報量
を低減することができる。
また、サブフレーム分散法としては、第2図(b)の
ようにフレーム左端からピッチ周期T毎に分割したが、
前フレームから連続的に分割する方法や、前記特願昭59
−272435号、特願昭60−178911号に開示のような分割法
を用いることもできる。
また、演算量を大幅に低減するために、有声区間で
は、代表区間をフレーム内の予め定められた区間に固定
し(例えば、フレームのほぼ中央のピッチ区間や、フレ
ーム内でパワーの最も大きいピッチ区間など)、代表区
間の探索をしない構成としてもよい。この場合は、各候
補区間に対する(5),(6)式の計算が不要となり、
大幅な演算量低減が可能となるが音質は低下する。
また、さらに演算量を低減するために、送信側では影
響信号の計算を省略することもできる。これによって、
送信側における駆動信号復元回路283、補間回路282、合
成フィルタ281、減算器190は不要となり演算量低減が可
能となるが、やはり音質は低下する。
また、受信側で合成フィルタ回路350の後段に、量子
化雑音を整形することにより聴覚的に聞き易くするため
に、ピッチとスペクトル包絡の少なくとも1つについて
動作する適応形ポストフィルタを付加してもよい。適応
形ポストフィルタの構成については、例えば、Kroon氏
らによる“A Class of Analysis−by−synthesis Predi
ctive Codrs for High Quality at Rates between 4.8
and 16kb/s,"(IEEE JSAC,vol.6,2,353−363,1988)
(文献5)等を参照できる。
なお、デジタル信号処理の分野でよく知られているよ
うに、自己相関関数は周波数軸上でパワースペクトル
に、相互相関関数はクロスパワースペクトルに対応して
いるので、これらから計算することもできる。これらの
計算法については、Oppenheim氏らによる“Digital Sig
nal Processing"(Prentice−Hall,1975)と題した単行
本(文献6)を参照できる。
〔発明の効果〕
以上説明したように、本発明によれば、有声区間の音
源信号を、フレームをピッチ周期に分割して1つのピッ
チ区間(代表区間)のマルチパルスと他のピッチ区間で
は補正情報、特に振幅補正係数、位相補正係数を用いて
表すとができるので、母音定常区間はもちろんのこと、
音韻知覚や自然性の知覚に重要な音声の特性が変化して
いる部分(有声の過渡部や母音間の変化部分)でも音質
の劣化のほとんどない合成音声を得ることができるとい
う大きな効果がある。さらに有声区間以外では、雑音と
マルチパルスの組合せにより音源信号を表すことができ
るので、種々の子音に対して良好な合成音声を得ること
ができるという大きな効果がある。
また、このような音質の良好な符号化復号化方法に適
した音声符号装置、音声復号化装置を提供することがで
きる。
【図面の簡単な説明】
第1図は本発明の音声符号化復号化方法及び音声符号化
装置並びに音声復号化装置の一実施例を示すブロック
図、 第2図は本発明の説明に供する有声フレームでの代表区
間と代表区間のマルチパルス及び振幅補正係数、位相補
正係数を示す説明図である。 110……バッファメモリ 130……ピッチ分析回路 140……Kパラメータ計算回路 150……ピッチ符号化回路 160……Kパラメータ符号化回路 170……インパルス応答計算回路 180……自己相関関数計算回路 190……減算器 200……重み付け回路 210……相互相関関数計算回路 220……音源信号計算回路 225,310……雑音メモリ 230……符号化回路 260……マルチプレクサ 270……振幅・位相補正係数計算回路 281,350……合成フィルタ 282,335……補間回路 283,340……駆動信号復元回路 290……デマルチプレクサ 300……音源復号回路 315……復号回路 320……ピッチ復号回路 330……Kパラメータ復号回路

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】送信側において、離散的な音声信号を入力
    し、あらかじめ定められた時間長のフレームに分割し、
    前記音声信号から有声無声判別情報を求め、前記音声信
    号からフレーム毎にスペクトル包絡を表すスペクトルパ
    ラメータとピッチを表すピッチパラメータとを抽出し、
    前記判別情報が有声のときは前記フレーム区間をそのピ
    ッチ情報に応じたピッチ区間に分割し、前記音声信号の
    音源信号を、前記ピッチ区間のうち1つのピッチ区間で
    求めたマルチパルス列と、他のピッチ区間では前記入力
    音声と前記マルチパルスに基づく相関係数から計算した
    補正情報で表し、前記判別情報が無声のときは前記音声
    信号の音源信号をマルチパルスと雑音の組合せで表し、
    前記スペクトルパラメータとピッチパラメータと判別情
    報と音源情報を組み合わせて伝送し、 受信側では、有声のときは、前記1つのピッチ区間のマ
    ルチパルスと前記マルチパルスに関する補正情報と前記
    ピッチパラメータを用いて前記フレームの駆動音源信号
    を復元し、無声のときは前記雑音と前記マルチパルス列
    の組合せを用いて前記フレームの駆動音源信号を復元
    し、前記スペクトルパラメータを用いて合成音声信号を
    求めることを特徴とする音声符号化復号化方法。
  2. 【請求項2】入力した離散的な音声信号をあらかじめ定
    められた時間長のフレームに分割し、前記音声信号から
    有声無声判別情報を求め、前記音声信号からフレーム毎
    にスペクトル包絡を表すスペクトルパラメータとピッチ
    を表すピッチパラメータとを抽出し符号化するパラメー
    タ計算手段と、 前記判別情報が有声のときは前記フレーム区間をそのピ
    ッチ情報に応じたピッチ区間に分割し、前記音声信号の
    音源信号を、前記ピッチ区間のうち1つのピッチ区間で
    求めたマルチパルス列と、他のピッチ区間では前記入力
    音声と前記マルチパルスに基づく相関係数から計算した
    振幅あるいは位相の少なくとも一方を補正する補正情報
    を求めて符号化し、前記判別情報が無声のときは、前記
    音声信号の音源信号をマルチパルスと雑音の組合せで表
    して符号化する音源信号計算手段と、 前記パラメータ計算手段の出力符号と前記音源信号計算
    手段の出力符号とを組み合わせて出力するマルチプレク
    サとを有することを特徴とする音声符号化装置。
  3. 【請求項3】スペクトルパラメータを表す符号とピッチ
    パラメータを表す符号と音源信号を表す符号と判別情報
    を表す符号とを分離して復号化する手段と、 前記判別情報が有声の場合はフレームを前記符号化した
    ピッチパラメータに応じたピッチ区間に分割し、1つの
    ピッチ区間についてマルチパルスを発生し、他のピッチ
    区間について前記マルチパルス列に関して振幅あるいは
    位相の少なくとも一方を補正する補正情報を用いてマル
    チパルスを発生させて前記フレームの駆動音源信号を復
    元し、前記判別情報が無声の場合はマルチパルスと雑音
    の組合せを用いて前記フレームの駆動音源信号を復元す
    る駆動信号復元手段と、 駆動音源と前記復号したスペクトルパメータを用いて合
    成音声を求め出力する合成フィルタとを有することを特
    徴とする音声復号化装置。
JP63208201A 1988-08-24 1988-08-24 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 Expired - Lifetime JP2829978B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63208201A JP2829978B2 (ja) 1988-08-24 1988-08-24 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63208201A JP2829978B2 (ja) 1988-08-24 1988-08-24 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置

Publications (2)

Publication Number Publication Date
JPH0258100A JPH0258100A (ja) 1990-02-27
JP2829978B2 true JP2829978B2 (ja) 1998-12-02

Family

ID=16552338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63208201A Expired - Lifetime JP2829978B2 (ja) 1988-08-24 1988-08-24 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置

Country Status (1)

Country Link
JP (1) JP2829978B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
US5448679A (en) * 1992-12-30 1995-09-05 International Business Machines Corporation Method and system for speech data compression and regeneration
US5875427A (en) * 1996-12-04 1999-02-23 Justsystem Corp. Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence
US5864814A (en) * 1996-12-04 1999-01-26 Justsystem Corp. Voice-generating method and apparatus using discrete voice data for velocity and/or pitch
US6655730B2 (en) 1998-10-13 2003-12-02 Oji Paper Co., Ltd. Automobile interior headliner molding or forming member and an automobile interior headliner member using the same
CN112634914B (zh) * 2020-12-15 2024-03-29 中国科学技术大学 基于短时谱一致性的神经网络声码器训练方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2844589B2 (ja) * 1984-12-21 1999-01-06 日本電気株式会社 音声信号符号化方法とその装置
JP2615548B2 (ja) * 1985-08-13 1997-05-28 日本電気株式会社 高能率音声符号化方式とその装置

Also Published As

Publication number Publication date
JPH0258100A (ja) 1990-02-27

Similar Documents

Publication Publication Date Title
EP0409239B1 (en) Speech coding/decoding method
US5018200A (en) Communication system capable of improving a speech quality by classifying speech signals
JP3196595B2 (ja) 音声符号化装置
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JP2829978B2 (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP2002140099A (ja) 音声復号化装置
JP3308764B2 (ja) 音声符号化装置
JP2615548B2 (ja) 高能率音声符号化方式とその装置
JP2956068B2 (ja) 音声符号化復号化方式
JP2946525B2 (ja) 音声符号化方式
JP3299099B2 (ja) 音声符号化装置
JP2992998B2 (ja) 音声符号化復号化装置
JP3153075B2 (ja) 音声符号化装置
JP2560682B2 (ja) 音声信号符号化復号化方法とその装置
JP2853170B2 (ja) 音声符号化復号化方式
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JPH08185199A (ja) 音声符号化装置
JP3055901B2 (ja) 音声信号符号化復号化方法及び音声信号符号化装置
JPH02160300A (ja) 音声符号化方式
JP2508002B2 (ja) 音声符号化方法とその装置
JP2658438B2 (ja) 音声符号化方法とその装置
JP3144244B2 (ja) 音声符号化装置
JPH08320700A (ja) 音声符号化装置
JP2847730B2 (ja) 音声符号化方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080925

Year of fee payment: 10

EXPY Cancellation because of completion of term