JPH0990997A - 音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ - Google Patents

音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ

Info

Publication number
JPH0990997A
JPH0990997A JP7247827A JP24782795A JPH0990997A JP H0990997 A JPH0990997 A JP H0990997A JP 7247827 A JP7247827 A JP 7247827A JP 24782795 A JP24782795 A JP 24782795A JP H0990997 A JPH0990997 A JP H0990997A
Authority
JP
Japan
Prior art keywords
filter
amplitude characteristic
phase
speech
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7247827A
Other languages
English (en)
Inventor
Tadashi Yamaura
正 山浦
Masaya Takahashi
真哉 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP7247827A priority Critical patent/JPH0990997A/ja
Publication of JPH0990997A publication Critical patent/JPH0990997A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 従来装置は、位相振幅特性付加フィルタの次
数は固定で、長いピッチ周期に対応するためには、フィ
ルタ次数を大きくとる必要があるが、ピッチ周期が短い
音声信号に対しては位相振幅特性付加フィルタのインパ
ルス応答が複数ピッチに渡って影響を与え、合成音声の
品質が劣化する。これを防ぎ、高品質音声を合成する。 【解決手段】 音源信号生成手段と、前記音源信号生成
手段から出力される音源信号に位相振幅特性を付加する
位相振幅特性付加フィルタと、前記位相振幅特性を付加
した音源信号から合成音声を生成する合成フィルタとを
備える符号駆動線形予測(CELP)符号化装置において、前
記位相振幅特性付加フィルタはその次数を可変に構成す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声信号をディ
ジタル信号に圧縮符号化する符号駆動線形予測音声符号
化装置と、前記圧縮符号を復号化する符号駆動線形予測
音声復号化装置、符号化復号化方法、およびこれらに使
用可能なディジタルフィルタ補間法に関する。
【0002】
【従来の技術】図9は、従来の符号駆動線形予測符号化
復号化装置の全体構成の一例を示すものであり、W.B.Kl
eijn, D.J.Krasinski, R.H.Ketchum著``Improved speec
h quality and efficient vector quantization in SEL
P■■ (ICASSP■88, pp.155-158, 1988)に示されたの
と同様のものである。
【0003】図において、1は符号化部、2は復号化
部、3は多重化手段、4は分離手段であり、5は入力音
声、6は出力音声である。7は線形予測パラメータ分析
手段、8は線形予測パラメータ符号化手段、9、20は
遅延器、10、21は線形予測パラメータ補間手段、1
1、22は合成フィルタである。12、16は適応音源
符号帳、13、17は駆動音源符号帳であり、14は最
適音源探索手段、15は音源利得符号化手段である。1
8は音源利得復号化手段、19は線形予測パラメータ復
号化手段である。50、51、54、55は増幅器、5
2、56は加算器、53は減算器である
【0004】以下、上記従来の符号駆動線形予測符号化
復号化装置の動作について説明する。
【0005】まず符号化部1において、線形予測パラメ
ータ分析手段7は、入力音声5を一定のフレーム周期で
分析して、線形予測パラメータを抽出する。次いで線形
予測パラメータ符号化手段8が前記線形予測パラメータ
を量子化し、それに対応する符号を多重化手段3に出力
すると共に、量子化した線形予測パラメータを遅延器9
と線形予測パラメータ補間手段10に出力する。遅延器
9は前記量子化した線形予測パラメータを1フレーム分
時間遅延して線形予測パラメータ補間手段10に出力す
る。すなわち遅延器9は前フレームの量子化した線形予
測パラメータを線形予測パラメータ補間手段10に出力
する。線形予測パラメータ補間手段10は前記遅延器9
から入力される前フレームの量子化した線形予測パラメ
ータと前記線形予測パラメータ符号化手段8から入力さ
れる現フレームの量子化した線形予測パラメータを図1
0に示す方法で、例えば1/4フレーム周期毎に補間し、
補間した線形予測パラメータを合成フィルタ11に出力
する。図10は線形予測パラメータを分析、補間する時
間関係の例を示し、線形予測パラメータはフレームの最
後のサブフレームを対象に分析され、それ以外のサブフ
レームの線形予測パラメータは現フレームと前フレーム
で分析された線形予測パラメータを補間することで求め
られる。
【0006】ここで、合成フィルタ11は例えばフレー
ムnで求められた伝達関数Hn(z)が式(1)で表現される
h次のフィルタであり、線形予測パラメータ補間手段
10は例えば式(2)に従ってフレームnー1とフレーム
nとで求められたフィルタ係数an-1(k), an(k)を線形
に補間してフィルタ係数ai(k)を求める。
【0007】
【数1】
【0008】
【数2】
【0009】次に、音源信号情報の符号化について説明
する。音源信号情報は例えば1/4フレームを単位とする
サブフレーム毎に符号化を行なう。音源信号情報を符号
化するサブフレームと線形予測パラメータを分析、補間
する時間関係の例は図10に示されるものと同様であ
り、線形予測パラメータはフレームの最後のサブフレー
ムを対象に分析され、それ以外のサブフレームの線形予
測パラメータは現フレームと前フレームで分析された線
形予測パラメータを補間することで求められる。
【0010】適応音源符号帳12には過去に生成した音
源信号が記憶されており、最適音源探索手段14より入
力される適応音源符号Lに対応した適応音源ベクトルを
出力する。駆動音源符号帳13には、例えばランダム雑
音から生成したn個の駆動音源ベクトルが記憶されてお
り、最適音源探索手段14より入力される駆動音源符号
Iに対応した駆動音源ベクトルを出力する。前記適応音
源ベクトル及び駆動音源ベクトルのベクトル長はサブフ
レーム長と一致している。合成フィルタ11は、前記適
応音源ベクトル及び前記駆動音源ベクトルにそれぞれ音
源利得β、γを増幅器50、51で乗じ、これ等を加算
器53で加算した音源信号と、前記補間した線形予測パ
ラメータとを用いてサブフレー ム長の合成音声を生成
する。
【0011】最適音源探索手段14は、前記合成音声と
入力音声5との該サブフレーム区間における減算器53
で算出された誤差信号の聴覚重み付き歪みを評価し、前
記歪みが最小になる適応音源符号L、駆動音源符号I、
音源利得β、γを求め、適応音源符号Lと駆動音源符号
Iを多重化手段3に出力するとともに、音源利得β、γ
を音源利得符号化手段15に出力する。音源利得符号化
手段15は、前記音源利得β、γを量子化し、その符号
を多重化手段3に出力する。
【0012】上記の適応音源符号帳12は、前記歪みが
最小になる適応音源符号Lに対応する適応音源ベクト
ル、駆動音源符号Iに対応する駆動音源ベクトル及び量
子化した音源利得β、γを用いて生成した音源信号によ
って符号帳の内容を更新する。
【0013】以上符号化が終了した後、多重化手段3は
前記量子化した線形予測パラメータに対応する符号、適
応音源符号L、駆動音源符号I、及び量子化した音源利
得β、γに対応する符号を伝送路に送出する。
【0014】次に、復号化部2の動作について説明す
る。
【0015】まず多重化手段3の出力を受けた分離手段
4は、その出力を分離し、 適応音源符号L→適応音源符号帳16 駆動音源符号I→駆動音源符号帳17 音源利得の符号→音源利得復号化手段18 線形予測パラメータの符号→線形予測パラメータ復号化
手段19 にそれぞれ出力する。
【0016】適応音源符号帳16は前記適応音源符号L
に対応した適応音源ベクトルを出力し、駆動音源符号帳
17は前記駆動音源符号Iに対応した駆動音源ベクトル
を出力する。
【0017】また、音源利得復号化手段18は前記音源
利得の符号に対応した音源利得β、γを復号化し、前記
適応音源ベクトル及び前記駆動音源ベクトルにそれぞれ
音源利得β、γを乗じるように増幅器54、55を制御
する。
【0018】一方、線形予測パラメータ復号化手段19
は、前記線形予測パラメータの符号に対応する線形予測
パラメータを復号化し、遅延器20と線形予測パラメー
タ補間手段21に出力する。遅延器20は前記復号化し
た線形予測パラメータを1フレーム分時間遅延して線形
予測パラメータ補間手段21に出力する。すなわち遅延
器20は前フレームの復号化した線形予測パラメータを
線形予測パラメータ補間手段21に出力する。線形予測
パラメータ補間手段21は前記遅延器20から入力され
る前フレームの復号化した線形予測パラメータと前記線
形予測パラメータ復号化手段19から入力される現フレ
ームの復号化した線形予測パラメータを図10に示すよ
うに、例えば1/4フレーム周期毎に補間し、補間した線
形予測パラメータを合成フィルタ22に出力する。合成
フィルタ22は、前記適応音源ベクトル及び前記駆動音
源ベクトルを加算器56で加算して得られる音源信号
を、前記線形予測パラメータを用いて合成し、出力音声
6を出力する。
【0019】上記の適応音源符号帳16は、符号化部1
の適応音源符号帳12と同様に、前記音源信号で符号帳
の内容を更新する。
【0020】以上の従来例とは別に、他の符号化復号化
装置として図11に示 すものがある。
【0021】図11は、山浦、高橋著``低ビットレート
CELPにおける有声音声品質改善の検討■■(日本音響学
会平成6年度秋季研究発表会講演論文集、 pp.263-264、
1994)に示されたのと同様のもので、音源信号の位相振
幅特性を符号化するものである。
【0022】図11において図9と同一の部分について
は同一の符号を付し、その説明は省略する。
【0023】図9と異なる部分として、23は位相振幅
特性分析手段、24は位相振幅特性符号化手段、25,
29は遅延器、26、30は位相振幅特性補間手段、2
7、31位相振幅特性付加フィルタ、28は位相振幅特
性復号化手段である。
【0024】ここで上記の構成による符号化復号化装置
の動作について説明する。
【0025】まず、符号化部1において、位相振幅特性
分析手段23は、入力音声5と線形予測パラメータ補間
手段10より入力される線形予測パラメータを用いて線
形予測残差信号を生成し、前記線形予測残差信号をフレ
ーム周期で分析して短期の位相振幅特性を求め、位相振
幅特性符号化手段24に出力する。このとき、位相振幅
特性の分析次数は、例えば128次とする。位相振幅特
性符号化手段24は、前記位相振幅特性を例えばベクト
ル量子化するなどして量子化し、それに対応する符号を
多重化手段3に出力するとともに、量子化した位相振幅
特性を遅延器25と位相振幅特性補間手段26に出力す
る。遅延器25は前記量子化した位相振幅特性を1フレ
ーム分時間遅延して位相振幅特性補間手段26に出力す
る。すなわち、遅延器25は前フレームの量子化した位
相振幅特性を位相振幅特性補間手段26に出力する。位
相振幅特性補間手段26は前記遅延器25から入力され
る前フレームの量子化した位相振幅特性と前記位相振幅
特性符号化手段24から入力される現フレームの量子化
した位相振幅特性を図10に示すように、例えば1/4フ
レーム周期毎に補間し、補間した位相振幅特性を位相振
幅特性付加フィルタ27に出力する。
【0026】ここで、位相振幅特性付加フィルタ27は
例えばフレームnで求められた伝達関数Pn(z)が式(3)
で表現されるNp次のフィルタであり、位相振幅特性補
間手段26は例えば式(4)に従ってフレームnー1とフ
レームnとで求められたフィルタ係数hnー1(k),h
n(k),を線形に補間してフィルタ係数hi(k)を求める。
【0027】
【数3】
【0028】
【数4】
【0029】位相振幅特性付加フィルタ27は例えば位
相振幅特性の分析次数のFIRフィルタであり、適応音源
符号帳12から出力されるサブフレーム長の適応音源ベ
クトル及び駆動音源符号帳13から出力されるサブフレ
ーム長の駆動音源ベクトルにそれぞれ音源利得β、γを
増幅器50、51で乗じ、これ等を加算器53で加算し
た音源信号に対して、前記補間した位相振幅特性を付加
し、合成フィルタ11に出力する。合成フィルタ11
は、線形予測パラメータ補間手段10より入力される補
間した線形予測パラメータと前記位相振幅特性を付加し
た音源信号とを用いてサブフレーム長の合成音声を生成
する。
【0030】音源信号に位相振幅特性を付加して合成音
声を生成する過程の説明図を図12に示す。
【0031】最適音源探索手段14は、前記合成音声と
入力音声5との該サブフレーム区間における減算器53
で算出された誤差信号の聴覚重み付き歪みを評価し、前
記歪みが最小になる適応音源符号L、駆動音源符号I、
音源利得β、γを求め、適応音源符号Lと駆動音源符号
Iを多重化手段3に出力するとともに、音源利得β、γ
を音源利得符号化手段15に出力する。音源利得符号化
手段15は、前記音源利得β、γを量子化し、その符号
を多重化手段3に出力する。
【0032】以上符号化が終了した後、多重化手段3は
前記量子化した線形予測パラメータに対応する符号、量
子化した位相振幅特性に対応する符号、適応音源符号
L、駆動音源符号I、及び量子化した音源利得β、γに
対応する符号を伝送路に送出する。
【0033】次に、復号化部2の動作について説明す
る。
【0034】まず、多重化手段3の出力を受けた分離手
段4は、その出力を分離し、 適応音源符号L→適応音源符号帳16 駆動音源符号I→駆動音源符号帳17 音源利得の符号→音源利得復号化手段18 位相振幅特性の符号→位相振幅特性復号化手段28 線形予測パラメータの符号→線形予測パラメータ復号化
手段19 にそれぞれ出力する。
【0035】位相振幅特性復号化手段28は、前記位相
振幅特性の符号に対応する位相振幅特性を復号化し、遅
延器29と位相振幅特性補間手段30に出力する。遅延
器29は前記復号化した位相振幅特性を1フレーム分遅
延して位相振幅特性補間手段30に出力する。すなわち
遅延器29は前フレームの復号化した位相振幅特性を位
相振幅特性補間手段30に出力する。位相振幅特性補間
手段30は前記遅延器29から入力される前フレームの
復号化した位相振幅特性と前記位相振幅特性復号化手段
28から入力される現フレームの復号化した位相振幅特
性を図10に示すように、符号化部1の位相振幅特性補
間手段26と同様、例えば1/4フレーム周期毎に補間
し、補間した位相振幅特性を位相振幅特性付加フィルタ
31に出力する。
【0036】位相振幅特性付加フィルタ31は、適応音
源符号帳16から出力される適応音源ベクトル及び駆動
音源符号帳17から出力される駆動音源ベクトルにそれ
ぞれ音源利得復号化手段18から出力される音源利得
β、γを増幅器54、55で乗じ、これ等を加算器56
で加算して得られる音源信号に対して、前記復号化した
位相振幅特性を付加し、合成フィルタ22に出力する。
合成フィルタ22は、前記位相振幅特性を付加した音源
信号を、線形予測パラメータ補間手段21より入力され
る線形予測パラメータを用いて合成し、出力音声6を出
力する。
【0037】
【発明が解決しようとする課題】音声には有声音と無声
音とがあり、有声音の再現性が合成音声の品質に与える
影響は大きい。ここでこの有声音の音源は、ピッチ周期
性とピッチ周期における短期の位相特性をもつ信号とし
てモデル化することができる。そして、このピッチ周期
は話者により2〜18msの値をとり、男声では7.5〜
10ms程度、女声では2.5〜5ms程度に多く分布して
いる。
【0038】上記した従来の符号駆動線形予測符号化・
復号化装置では、音源信号を適応音源ベクトルと駆動音
源ベクトルとの加算で表すが、この方法は音源信号の位
相特性を直接的に表現するものではない。従って、音源
信号の位相特性を再現できない場合が生じ、合成音声の
品質が劣化するという問題があった。
【0039】これに対して、従来の音源信号の位相振幅
特性を符号化する符号駆動線形予測符号化復号化装置で
は、音源信号に位相振幅特性を付加するフィルタを備え
ることにより、音源信号の位相特性の再現性の向上を図
っている。しかし、位相振幅特性付加フィルタの次数は
固定であり、長いピッチ周期に対応するためにフィルタ
次数を大きくとる必要があるが、このときピッチ周期が
短い音声信号に対しては位相振幅特性付加フィルタのイ
ンパルス応答が複数ピッチに渡って影響を与えることに
なり、ピッチ周期における短期の位相特性を与えるとい
う目的から外れ、合成音声の品質が劣化するという問題
があった。
【0040】図13はピッチ周期と位相振幅特性付加フ
ィルタのインパルス応答長の関係を示すものであり、図
13(a)はピッチ周期とインパルス応答長 が同程度の場
合、図13(b)はピッチ周期がインパルス応答長よりも
短い場合であり、この図13(b)からも明かなように位
相振幅特性付加フィルタのインパルス応答が複数ピッチ
に渡って影響を与えることが分かる。
【0041】また、従来の符号駆動線形予測符号化復号
化装置及び従来の音源信号の位相振幅特性を符号化する
符号駆動線形予測符号化復号化装置では、音源符号帳よ
り最適な音源信号を選択する際に、音源信号を決定する
サブフレーム区間における合成音声と入力音声との歪み
を評価して音源信号を決定していた。
【0042】しかし、該サブフレーム区間の音源信号
は、合成フィルタや位相振幅特性付加フィルタのフィル
タ応答により、該区間以後の合成音声にも影響を与える
ので、該サブフレーム区間で歪みが小さくても、該区間
以後で大きな歪みを生じる場合があり、合成音声の品質
が劣化するという問題があった。
【0043】さらに、従来の音源信号の位相振幅特性を
符号化する符号駆動線形予測符号化復号化装置では、位
相振幅特性付加フィルタのフィルタ特性と合成フィルタ
のフィルタ特性を別々に補間しているが、その補間特性
はこれら2つのフィルタを複合した1つのフィルタとし
て補間した場合の補間特性とは異なっており、合成音声
の品質が劣化するという問題があった。
【0044】この発明は、かかる課題を解決するために
なされたもので、その目的は、音声を符号化復号化する
に当たり、合成音声の品質の劣化を回避し、品質の良い
合成音声を生成することができる符号駆動線形予測符号
化復号化装置及び方法を得ることにある。
【0045】
【課題を解決するための手段】上記の課題を解決するた
めに、この発明の音声符号化装置は、音源信号生成手段
と、前記音源信号生成手段から出力される音源信号に短
期の位相振幅特性を付加する位相振幅特性付加フィルタ
と、前記位相振幅特性を付加した音源信号から合成音声
を生成する合成フィルタとを備える符号駆動線形予測(C
ELP)符号化装置において、位相振幅特性付加フィルタの
次数を可変とするものである。
【0046】また、この発明の音声符号化装置はさら
に、入力音声の特徴に応じて位相振幅特性付加フィルタ
の次数を変更するものである。
【0047】また、この発明の音声符号化装置は、入力
音声を符号化した符号に応じて位相振幅特性付加フィル
タの次数を変更するものである。
【0048】一方、この発明の音声復号化装置は、音源
信号生成手段と、前記音源信号生成手段から出力される
音源信号に短期の位相振幅特性を付加する位相振幅特性
付加フィルタと、前記位相振幅特性を付加した音源信号
から合成音声を生成する合成フィルタとを備える符号駆
動線形予測(CELP)復号化装置において、位相振幅特性付
加フィルタの次数を可変とするものである。
【0049】また、この発明の音声復号化装置はさら
に、復号化した符号に応じて位相振幅特性付加フィルタ
の次数を変更するものである。
【0050】また、この発明に係る音声符号化復号化方
法は、符号化側において、入力音声信号を線形予測分析
して得られる線形予測パラメータを符号化し、入力音声
信号の線形予測残差信号を分析して得られる短期の位相
振幅特性を符号化し、音源符号帳より最適な合成音声を
生成する音源信号を選択、符号化する一方、復号化側に
おいて、入力された符号に基づき音源信号と位相振幅特
性と線形予測パラメータとを生成し、出力音声信号を得
る符号駆動線形予測(CELP)符号化復号化方法であって、
符号化側は、位相振幅特性付加フィルタの次数を変更す
る工程を付加し、復号化側は、位相振幅特性付加フィル
タの次数を前記符号化側の位相振幅特性付加フィルタの
次数に対応して変更する工程を付加するものである。
【0051】また、この発明の音声符号化装置は、音源
信号生成手段と、前記音源信号生成手段から出力される
音源信号から合成音声を生成する合成フィルタと、入力
音声と前記合成フィルタで生成された合成音声との歪み
を評価し、歪みが最小となる音源信号を決定する最適音
源探索手段とを備え、一定区間毎に音源信号情報を符号
化する符号駆動線形予測(CELP)符号化装置において、音
源信号情報を符号化する際に、前記合成フィルタは前記
一定区間に加え、該区間以後において生成される合成音
声を予測して生成し、最適音源探索手段は前記合成音声
生成区間に対応する入力音声と前記合成音声との歪みを
評価し、音源信号を決定するものである。
【0052】また、この発明の複合ディジタルフィルタ
は、複数個のディジタルフィルタから構成され、各フィ
ルタのフィルタ特性は離散時間点で与えらる複合ディジ
タルフィルタであって、各フィルタ特性を補間する際、
前記複合ディジタルフィルタのフィルタ特性を補間した
特性を得るフィルタ特性のフィルタを備えたものであ
る。
【0053】また、この発明の音声符号化装置または音
声復号化装置は、複数個のディジタルフィルタをその構
成要素に持ち、各フィルタのフィルタ特性は離散時間点
で与えられるものにおいて、各フィルタ特性を補間する
際、前記複合ディジタルフィルタのフィルタ特性を補間
した特性を得るフィルタ特性のフィルタを備えたもので
ある。
【0054】また、この発明の複合ディジタルフィルタ
は、複数個のディジタルフィルタから構成され、各フィ
ルタのフィルタ係数は離散時間点で与えられる複合ディ
ジタルフィルタであって、各フィルタ特性を補間する
際、複合ディジタルフィルタのフィルタ特性を補間した
特性が得られるように各フィルタの特性を設定する特性
補間設定手段を備えたものである。
【0055】また、この発明の音声符号化装置または音
声復号化装置は、複数個のディジタルフィルタをその構
成要素に持ち、各フィルタのフィルタ特性は離散時間点
で与えられるものにおいて、各フィルタ特性を補間する
際、複合ディジタルフィルタのフィルタ特性を補間した
特性が得られるように各フィルタの特性を設定する特性
補間設定手段を備えたものである。
【0056】
【発明の実施の形態】
実施の形態1.ここでこの発明に係る音声符号化装置及
び音声復号化装置を図面に従って説明する。
【0057】図1は、本実施例の音声符号化装置および
音声復号化装置の全体構成を示すブロック図である。こ
の図において図11と同一の部分については同一の符号
を付し、説明を省略する。
【0058】この実施の形態において新たな構成は、求
める位相振幅特性の分析次数を変更して分析可能な位相
振幅特性分析手段32、位相振幅特性の分析次数に対応
して量子化する位相振幅特性符号化手段33、位相振幅
特性の分析次数に対応してフィルタ次数を変更可能な位
相振幅特性付加フィルタ34、37、最適な位相振幅特
性付加フィルタの次数と音源符号の組合せを探索する最
適音源探索手段35、及び符号化された位相振幅特性の
次数に対応して復号化する位相振幅特性復号化手段36
である。
【0059】以下、上記の新たな構成を中心に動作を説
明する。
【0060】まず、符号化部1において、位相振幅特性
分析手段32は、入力音声5と線形予測パラメータ補間
手段10より入力される線形予測パラメータを用いて線
形予測残差信号を生成し、フレーム毎に前記線形予測残
差信号を最適音源探索手段35より入力される次数で短
期の位相振幅特性を分析して求め、位相振幅特性符号化
手段33に出力する。位相振幅特性符号化手段33は最
適音源探索手段35より入力される次数に対応して、例
えばベクトル量子化する際の量子化符号帳を前記次数に
より切替えるなどして前記位相振幅特性を量子化し、そ
れに対応する符号を多重化手段3に出力するとともに、
量子化した位相振幅特性を遅延器25と位相振幅特性補
間手段26に出力する。図2(a)に従来の位相振幅特性
符号化手段24、(b)にこの実施の形態における位相振
幅特性符号化手段33の構成の一例を示す。
【0061】図2(b)に示すように、位相振幅特性符号
化手段33は複数の例えばM個の量子化符号帳を備え、
切り替え手段により最適音源探索手段35より入力され
る次数に対応した量子化符号帳を量子化器に接続する。
【0062】遅延器25は前記量子化した位相振幅特性
を1フレーム分時間遅延して位相振幅特性補間手段26
に出力する。すなわち遅延器25は前フレームの量子化
した位相振幅特性を位相振幅特性補間手段26に出力す
る。位相振幅特性補間手段26は前記遅延器25から入
力される前フレームの量子化した位相振幅特性と前記位
相振幅特性符号化手段33から入力される現フレームの
量子化した位相振幅特性を図10に示す方法で、例えば
1/4フレーム周期毎に補間し、補間した位相振幅特性を
位相振幅特性付加フィルタ34に出力する。
【0063】位相振幅特性付加フィルタ34は例えばFI
Rフィルタであり、最適音源探索手段35から入力され
る次数に対応してフィルタ次数を変更し、適応音源符号
帳12から出力されるサブフレーム(例えば1/4フレー
ム)長の適応音源ベクトル及び駆動音源符号帳13から
出力されるサブフレーム長の駆動音源ベクトルにそれぞ
れ音源利得β、γを増幅器50、51で乗じ、これ等を
加算器52で加算した音源信号に対して、前記補間した
位相振幅特性をを付加し、合成フィルタ11に出力す
る。合成フィルタ11は、線形予測パラメータ補間手段
10より入力される補間した線形予測パラメータと前記
位相振幅特性を付加した音源信号とを用いてサブフレー
ム長の合成音声を生成する。
【0064】最適音源探索手段35は、前記合成音声と
入力音声5との該サブフレーム区間における減算器53
で算出した誤差信号の聴覚重み付き歪みを評価し、前記
歪みが最小になる位相振幅特性の次数、適応音源符号
L、駆動音源符号I、音源利得β、γを求め、位相振幅
特性の次数と適応音源符号Lと駆動音源符号Iとを多重
化手段3に出力するとともに、音源利得β、γを音源利
得符号化手段15に出力する。音源利得符号化手段15
は、前記音源利得β、γを量子化し、その符号を多重化
手段3に出力する。
【0065】以上符号化が終了した後、多重化手段3は
前記量子化した線形予測パラメータに対応する符号、量
子化した位相振幅特性に対応する符号、位相振幅特性の
次数、適応音源符号L、駆動音源符号I、及び量子化し
た音源利得β、γに対応する符号を伝送路に送出する。
【0066】以上がこの実施の形態の音声符号化装置に
特徴的な動作である。
【0067】つづいて、復号化部2について説明する。
【0068】まず、多重化手段3の出力を受けた分離手
段4は、その出力を分離し、 適応音源符号L→適応音源符号帳16 駆動音源符号I→駆動音源符号帳17 音源利得の符号→音源利得復号化手段18 位相振幅特性の符号→位相振幅特性復号化手段36 位相振幅特性の次数→位相振幅特性復号化手段36、位
相振幅特性付加フィルタ37 線形予測パラメータの符号→線形予測パラメータ復号化
手段19 にそれぞれ出力する。
【0069】位相振幅特性復号化手段36は、前記位相
振幅特性の次数に対応して、例えばベクトル量子化符号
帳を前記次数により切替えるなどして、前記位相振幅特
性の符号に対応する位相振幅特性を復号化し、遅延器2
9と位相振幅特性補間手段30に出力する。遅延器29
は前記復号化した位相振幅特性を1フレーム分遅延して
位相振幅特性補間手段30に出力する。すなわち遅延器
29は前フレームの復号化した位相振幅特性を位相振幅
特性補間手段30に出力する。位相振幅特性補間手段3
0は前記遅延器29から入力される前フレームの復号化
した位相振幅特性と前記位相振幅特性復号化手段36か
ら入力される現フレームの復号化した位相振幅特性とを
符号化部1の位相振幅特性補間手段26と同様に例えば
1/4フレーム周期毎に補間し、補間した位相振幅特性を
位相振幅特性付加フィルタ37に出力する。
【0070】位相振幅特性付加フィルタ37は、前記位
相振幅特性の次数に対応してフィルタ次数を変更し、適
応音源符号帳16から出力される適応音源ベクトル及び
駆動音源符号帳17から出力される駆動音源ベクトルに
それぞれ音源利得復号化手段18から出力される音源利
得β、γを増幅器54、55で乗じ、これ等を加算器5
6で加算して得られる音源信号に対して、前記補間した
位相振幅特性を付加し、合成フィルタ22に出力する。
合成フィルタ22は、線形予測パラメータ補間手段21
より入力される線形予測パラメータと前記位相振幅特性
を付加した音源信号とを用いて出力音声6を合成し、出
力する。
【0071】以上がこの実施の形態1の音声復号化装置
に特徴的な動作である。
【0072】この実施の形態1によれば、音源信号に短
期の位相振幅特性を付加する位相振幅特性付加フィルタ
のフィルタ次数を可変とし、入力音声と合成音声の歪み
が小さくなるようにそのフィルタ次数を変更することに
より、音源信号の再現性を良好にし、合成音声の品質を
向上させることができる。
【0073】なお、この実施の形態1では位相振幅特性
の符号化を、その次数により量子化符号帳を切替えると
しているが、1つの量子化符号帳内に次数の異なる位相
振幅特性を格納しておき、最適音源探索手段35は前記
位相振幅特性の符号を指定し、位相振幅特性分析手段3
2及び位相振幅特性付加フィルタ34は前記位相振幅特
性の符号に対応する次数により分析、フィルタリングを
行なうとしてもよい。この場合、位相振幅特性の次数毎
に異なる数の位相振幅特性を量子化符号帳内に格納して
おくことができる。これにより、必要度が高い次数の位
相振幅特性は多く、また、必要度が低い位相振幅特性は
少なくすることができ、量子化効率を向上させることが
できる。
【0074】実施の形態2 つづいてこの発明の音声符号化装置の実施の形態2を図
面に従って説明する。
【0075】図3は、この実施の形態2の音声符号化装
置の構成を示すブロック図である。この図において図1
と同一の部分については同一の符号を付し、説明を省略
する。
【0076】図3において、図1と比べて新たな構成
は、入力音声のピッチ周期を分析して抽出するためのピ
ッチ抽出手段38、ピッチ周期から位相振幅付特性の次
数を決定する位相振幅特性次数決定手段39である。
【0077】以下、上記の追加された構成を中心に動作
を説明する。
【0078】まず符号化部1において、ピッチ抽出手段
38は既知の方法によって入力音声5のピッチ周期を分
析して抽出し、位相振幅特性次数決定手段39に出力す
る。位相振幅特性次数決定手段39は、前記ピッチ周期
に対応して位相振幅特性の次数を決定し、位相振幅特性
分析手段32、位相振幅特性符号化手段33、位相振幅
特性付加フィルタ34及び多重化手段3に出力する。前
記位相振幅特性次数決定手段39においてピッチ周期に
対する位相振幅特性の次数は、例えばピッチ周期が2〜
6msの時は40次、6〜12msの時は80次、12ms以
上では128次とする。
【0079】位相振幅特性分析手段32は、入力音声5
と線形予測パラメータ補間手段10より入力される線形
予測パラメータを用いて線形予測残差信号を生成し、フ
レーム毎に前記線形予測残差信号を前記位相振幅特性次
数決定手段39より入力される次数で短期の位相振幅特
性を分析して求め、位相振幅特性符号化手段33に出力
する。位相振幅特性符号化手段33は前記次数に対応し
て、例えばベクトル量子化する際の量子化符号帳を前記
次数により切替えるなどして、前記位相振幅特性を量子
化し、それに対応する符号を多重化手段3に出力すると
ともに、量子化した位相振幅特性を遅延器25と位相振
幅特性補間手段26に出力する。
【0080】遅延器25は前記量子化した位相振幅特性
を1フレーム分時間遅延して位相振幅特性補間手段26
に出力する。すなわち遅延器25は前フレームの量子化
した位相振幅特性を位相振幅特性補間手段26に出力す
る。位相振幅特性補間手段26は前記遅延器25から入
力される前フレームの量子化した位相振幅特性の例えば
1/4フレーム分と前記位相振幅特性符号化手段33から
入力される現フレームの量子化した位相振幅特性の例え
ば1/4フレーム分とにより、この間を1/4フレーム(サブ
フレーム)周期毎に補間し、補間した位相振幅特性を位
相振幅特性付加フィルタ34に出力する。
【0081】位相振幅特性付加フィルタ34は例えばFI
Rフィルタであり、前記位相振幅特性次数決定手段39
から入力される次数に対応してフィルタ次数を変更し、
適応音源符号帳12から出力されるサブフレーム長の適
応音源ベクトル及び駆動音源符号帳13から出力される
サブフレーム長の駆動音源ベクトルにそれぞれ音源利得
β、γを増幅器50、51で乗じ、これ等を加算器53
で加算した音源信号に対して、前記補間した位相振幅特
性を付加し、合成フィルタ11に出力する。合成フィル
タ11は、線形予測パラメータ補間手段10より入力さ
れる補間した線形予測パラメータと前記位相振幅特性を
付加した音源信号とを用いてサブフレーム長の合成音声
を生成する。
【0082】最適音源探索手段14は、前記合成音声と
入力音声5との該サブフレーム区間における減算器53
で算出した誤差信号の聴覚重み付き歪みを評価し、前記
歪みが最小になる適応音源符号L、駆動音源符号I、音
源利得β、γを求め、適応音源符号Lと駆動音源符号I
とを多重化手段3に出力するとともに、音源利得β、γ
を音源利得符号化手段15に出力する。音源利得符号化
手段15は、前記音源利得β、γを量子化し、その符号
を多重化手段3に出力する。
【0083】以上符号化が終了した後、多重化手段3は
前記量子化した線形予測パラメータに対応する符号、量
子化した位相振幅特性に対応する符号、位相振幅特性の
次数、適応音源符号L、駆動音源符号I、及び量子化し
た音源利得β、γに対応する符号を伝送路に送出する。
【0084】以上が実施の形態2に係る音声符号化装置
の概要である。
【0085】この実施の形態によれば、入力音声を分析
して求めたピッチ周期に応じて位相振幅特性付加フィル
タの次数を変更することにより、少ない処理量でも音源
信号の再現性を良好にし、合成音声の品質を向上させる
ことができる。
【0086】実施の形態3 さらにこの発明に係る音声符号化装置及び音声復号化装
置の別の実施の形態を図面にしたがって説明する。
【0087】図4は、この実施の形態の音声符号化装置
及び音声復号化装置の全体構成を示すブロック図であ
る。この図において図1と同一の部分については同一の
符号を付し、説明を省略する。
【0088】図4において、図1と比べて新たな構成
は、過去フレームにおいて求められた適応音源符号から
入力音声のピッチ周期を推定するピッチ推定手段40、
42、推定されたピッチ周期から位相振幅特性の次数を
決定する位相振幅特性次数決定手段41、43である。
【0089】以下、上記の追加された構成を中心に動作
を説明する。
【0090】まず符号化部1において、ピッチ推定手段
40は過去フレームにおいて求められた適応音源符号か
ら現フレームの入力音声のピッチ周期を推定し、位相振
幅特性次数決定手段41に出力する。適応音源符号は音
声のピッチ周期に関わる情報を符号化したものであり、
ピッチ周期の推定は、例えば過去フレームで求められた
適応音源符号の頻度分布から出現頻度が大きい適応音源
符号を求め、その適応音源符号に対応するピッチ周期を
推定結果とする。
【0091】位相振幅特性次数決定手段41は、前記ピ
ッチ周期に対応して位相振幅特性の次数を決定し、位相
振幅特性分析手段32、位相振幅特性符号化手段33、
位相振幅特性付加フィルタ34に出力する。前記位相振
幅特性次数決定手段41においてピッチ周期に対する位
相振幅特性の次数は、例えばピッチ周期が2〜6msの時
は40次、6〜12msの時は80次、12ms以上では1
28次とする。
【0092】位相振幅特性分析手段32は、入力音声5
と線形予測パラメータ補間手段10より入力される線形
予測パラメータを用いて線形予測残差信号を生成し、フ
レーム毎に前記線形予測残差信号を前記位相振幅特性次
数決定手段41より入力される次数で短期の位相振幅特
性を分析して求め、位相振幅特性符号化手段33に出力
する。位相振幅特性符号化手段33は前記次数に対応し
て、例えばベクトル量子化する際の量子化符号帳を前記
次数により切替えるなどして、前記位相振幅特性を量子
化し、それに対応する符号を多重化手段3に出力すると
ともに、量子化した位相振幅特性を遅延器25と位相振
幅特性補間手段26に出力する。
【0093】遅延器25は前記量子化した位相振幅特性
を1フレーム分時間遅延して位相振幅特性補間手段26
に出力する。すなわち遅延器25は前フレームの量子化
した位相振幅特性を位相振幅特性補間手段26に出力す
る。位相振幅特性補間手段26は前記遅延器25から入
力される前フレームの量子化した位相振幅特性と前記位
相振幅特性符号化手段33から入力される現フレームの
量子化した位相振幅特性を図10に示す方法で、例えば
1/4フレームのサブフレーム周期毎に補間し、補間した
位相振幅特性を位相振幅特性付加フィルタ34に出力す
る。
【0094】位相振幅特性付加フィルタ34は例えばFI
Rフィルタであり、前記位相振幅特性次数決定手段41
から入力される次数に対応してフィルタ次数を変更し、
適応音源符号帳12から出力されるサブフレーム長の適
応音源ベクトル及び駆動音源符号帳13から出力される
サブフレーム長の駆動音源ベクトルにそれぞれ音源利得
β、γを増幅器50、51で乗じ、これ等を加算器52
で加算した音源信号に対して、前記補間した位相振幅特
性をを付加し、合成フィルタ11に出力する。合成フィ
ルタ11は、線形予測パラメータ補間手段10より入力
される補間した線形予測パラメータと前記位相振幅特性
を付加した音源信号とを用いてサブフレーム長の合成音
声を生成する。
【0095】最適音源探索手段14は、前記合成音声と
入力音声5との該サブフレーム区間における減算器53
で算出した誤差信号の聴覚重み付き歪みを評価し、前記
歪みが最小になる適応音源符号L、駆動音源符号I,音
源利得β、γを求め、適応音源符号Lと駆動音源符号I
とを多重化手段3に出力するとともに、音源利得β、γ
を音源利得符号化手段15に出力する。音源利得符号化
手段15は、前記音源利得β、γを量子化し、その符号
を多重化手段3に出力する。
【0096】以上符号化が終了した後、多重化手段3は
前記量子化した線形予測パラメータに対応する符号、量
子化した位相振幅特性に対応する符号、適応音源符号
L、駆動音源符号I、及び量子化した音源利得β、γに
対応する符号を伝送路に送出する。
【0097】以上が実施の形態3に係る音声符号化装置
の概要である。
【0098】次に、音声復号化装置の動作について説明
する。
【0099】まず、多重化手段3の出力を受けた分離手
段4は、その出力を分離し、 適応音源符号L→適応音源符号帳16、ピッチ推定手段
42 駆動音源符号I→駆動音源符号帳17 音源利得の符号→音源利得復号化手段18 位相振幅特性の符号→位相振幅特性復号化手段36 線形予測パラメータの符号→線形予測パラメータ復号化
手段19 にそれぞれ出力する。
【0100】ピッチ推定手段42は、符号化側のピッチ
推定手段40と同様の動作により過去フレームの適応音
源符号から現フレームのピッチ周期を推定し、位相振幅
特性次数決定手段43に出力する。位相振幅特性次数決
定手段43は、符号化側の位相振幅特性次数決定手段4
1と同様の動作により前記ピッチ周期に対応して位相振
幅特性の次数を決定し、位相振幅特性復号化手段36と
位相振幅特性付加フィルタ37に出力する。位相振幅特
性復号化手段36は、前記位相振幅特性の次数に対応し
て、例えばベクトル量子化符号帳を前記次数により切替
えるなどして、前記位相振幅特性の符号に対応する位相
振幅特性を復号化し、遅延器29と位相振幅特性補間手
段30に出力する。遅延器29は前記復号化した位相振
幅特性を1フレーム分遅延して位相振幅特性補間手段3
0に出力する。すなわち遅延器29は前フレームの復号
化した位相振幅特性を位相振幅特性補間手段30に出力
する。位相振幅特性補間手段30は前記遅延器29から
入力される前フレームの復号化した位相振幅特性と前記
位相振幅特性復号化手段28から入力される現フレーム
の復号化した位相振幅特性を図10に示す符号化部1の
位相振幅特性補間手段26と同様に、例えば1/4フレー
ムのサブフレーム周期毎に補間し、補間した位相振幅特
性を位相振幅特性付加フィルタ37に出力する。
【0101】位相振幅特性付加フィルタ37は、前記位
相振幅特性の次数に対応してフィルタ次数を変更し、適
応音源符号帳16から出力される適応音源ベクトル及び
駆動音源符号帳17から出力される駆動音源ベクトルに
それぞれ音源利得復号化手段18から出力される音源利
得β、γを増幅器54、55で乗じ、これ等を加算器5
6で加算して得られる音源信号に対して、前記補間した
位相振幅特性を付加し、合成フィルタ22に出力する。
合成フィルタ22は、線形予測パラメータ補間手段21
より入力される線形予測パラメータと前記位相振幅特性
を付加した音源信号とを用いて出力音声6を合成し、出
力する。
【0102】以上が実施の形態3に係る音声復号化装置
の概要である。
【0103】この実施の形態3によれば、入力音声のピ
ッチ周期を適応音源符号から推定し、このピッチ周期に
応じて位相振幅特性付加フィルタの次数を変更すること
により、位相振幅特性の次数の情報を伝送する必要がな
いために少ない伝送情報量で音源信号の再現性を良好に
し、合成音声の品質を向上させることができる。
【0104】実施の形態4 つづいてこの発明の音声符号化装置の実施の形態4を図
面に従って説明する。
【0105】図5は、この実施の形態4の音声符号化装
置の構成を示すブロック図である。この図において、図
9と同一の部分については同一の符号を付し、説明を省
略する。
【0106】この実施の形態において新たな構成は、サ
ブフレーム長より長い区間まで合成音声を生成する合成
フィルタ44、サブフレーム長より長い区間において合
成音声の歪みを評価する最適音源探索手段45である。
【0107】以下、上記の新たな構成を中心に動作を説
明する。
【0108】合成フィルタ44は、適応音源符号帳12
から出力されるサブフレーム長の適応音源ベクトル及び
駆動音源符号帳13から出力されるサブフレーム長の駆
動音源ベクトルにそれぞれ音源利得β、γを増幅器5
0、51で乗じ、これ等を加算器53で加算した音源信
号と、線形予測パラメータ補間手段10から入力される
補間した線形予測パラメータとを用いてサブフレーム長
+Nサンプルの合成音声を生成する。図6に、サブフレ
ームと合成音声との時間関係を示す。
【0109】最適音源探索手段45は、前記合成音声と
入力音声5との該サブフレーム+Nサンプルの区間にお
ける減算器53で算出した誤差信号の聴覚重み付き歪み
を評価し、前記歪みが最小になる適応音源符号L、駆動
音源符号I、音源利得β、γを求め、適応音源符号Lと
駆動音源符号Iを多重化手段3に出力するとともに、音
源利得β、γを音源利得符号化手段15に出力する。音
源利得符号化手段15は、前記音源利得β、γを量子化
し、その符号を多重化手段3に出力する。
【0110】以上符号化が終了した後、多重化手段3は
前記量子化した線形予測パラメータに対応する符号、適
応音源符号L、駆動音源符号I、及び量子化した音源利
得β、γに対応する符号を伝送路に送出する。
【0111】以上がこの実施の形態の音声符号化装置に
特徴的な動作である。
【0112】この実施の形態によれば、音源符号帳より
最適な音源信号を選択する際に、サブフレーム長より長
い区間の合成音声を生成し、入力音声との歪みを評価す
ることにより、該サブフレームの音源信号から生成され
る合成音声が該サブフレーム以後に与える影響も加味し
て音源信号を決定するため、合成音声の再現性を良好に
し、品質を向上させることができる。
【0113】実施の形態5.上記実施の形態4では、従
来の符号駆動線形予測符号化装置を基に合成音声の歪み
評価をサブフレーム長+Nサンプルで行うものである
が、従来の位相振幅特性を符号化する符号駆動線形予測
符号化装置を基に、サブフレーム長の音源信号を位相振
幅特性付加フィルタに通しサブフレーム+Nサンプルの
位相振幅特性を付加した音源信号を生成し、これを合成
フィルタに通しサブフレーム長+Nサンプルの合成音声
を生成し、これを歪み評価に用いるものとしてもよい。
【0114】実施の形態6 上記実施の形態4及び5では、サブフレーム長の音源信
号からサブフレーム長+Nサンプルの合成音声を生成し
て歪み評価に用いているが、ピッチ周期などの情報を用
いて音源信号をサブフレーム長+Nサンプルまで予測生
成し、これからサブフレーム長+Nサンプルの合成音声
を生成して歪み評価に用いるものとしてもよい。
【0115】実施の形態7.つづいてこの発明のディジ
タルフィルタ補間法の実施の形態を図面に従って説明す
る。
【0116】図7は、この実施の形態のディジタルフィ
ルタ補間法を用いた音声復号化装置の構成を示すブロッ
ク図である。この図において、図11と同一の部分につ
いては同一の符号を付し、説明を省略する。
【0117】この実施の形態おいて新たな構成は、位相
振幅付加フィルタと合成フィルタの補間特性を補償する
フィルタ特性を求める補間補償特性算出手段46、合成
音声に対して補間補償を行なう補間補償フィルタ47で
ある。
【0118】以下、上記の新たな構成を中心に動作を説
明する。
【0119】位相振幅特性復号化手段28は、位相振幅
特性の符号に対応する位相振幅特性を復号化し、遅延器
29、位相振幅特性補間手段30及び補間補償特性算出
手段46に出力する。遅延器29は前記復号化した位相
振幅特性を1フレーム分遅延して位相振幅特性補間手段
30と補間補償特性算出手段46に出力する。位相振幅
特性補間手段30は前記遅延器29から入力される前フ
レームの復号化した位相振幅特性と前記位相振幅特性復
号化手段28から入力される現フレームの復号化した位
相振幅特性を図10に示す方法で、例えば1/4フレーム
周期毎に補間し、補間した位相振幅特性を位相振幅特性
付加フィルタ31と補間補償特性算出手段46に出力す
る。
【0120】線形予測パラメータ復号化手段19は、線
形予測パラメータの符号に対応する線形予測パラメータ
を復号化し、遅延器20、線形予測パラメータ補間手段
21及び補間補償特性算出手段46に出力する。遅延器
20は前記復号化した線形予測パラメータを1フレーム
分時間遅延して線形予測パラメータ補間手段21と補間
補償特性算出手段46に出力する。線形予測パラメータ
補間手段21は前記遅延器20から入力される前フレー
ムの復号化した線形予測パラメータと前記線形予測パラ
メータ復号化手段19から入力される現フレームの復号
化した線形予測パラメータを図10に示す方法で、例え
ば1/4フレーム周期毎に補間し、補間した線形予測パラ
メータを合成フィルタ22と補間補償特性算出手段46
に出力する。
【0121】補間補償特性算出手段46は、前記前フレ
ームの復号化した位相振幅特性と前記前フレームの復号
化した線形予測パラメータから、前記位相振幅特性付加
フィルタ31と合成フィルタ22を複合した1つのフィ
ルタとみた場合の前フレームのフィルタ特性を求め、ま
た、前記現フレームの復号化した位相振幅特性と前記現
フレームの復号化した線形予測パラメータから前記位相
振幅特性付加フィルタ31と合成フィルタ22を複合し
た1つのフィルタとみた場合の現フレームのフィルタ特
性を求め、前記前フレームのフィルタ特性と前記現フレ
ームのフィルタ特性を図10に示す方法で、例えば1/4
フレーム周期毎に補間する。次に、前記補間した位相振
幅特性の逆特性と前記補間した線形予測パラメータから
合成フィルタの逆特性を求め、これら2つの逆特性を前
記補間したフィルタ特性に乗算することにより補間補償
特性を求め、補間補償フィルタ47に出力する。
【0122】ここで、フレームnで復号化された合成フ
ィルタ22及び位相振幅特性付加フィルタ31の伝達関
数は例えばそれぞれ式(1), (3)で表現され、補間補償特
性算出手段46はこれら2つのフィルタを複合した伝達
関数を例えば式(5)のようにFIRフィルタで近似してフィ
ルタ係数cn(k)を求め、これを例えば式(6)に従ってフ
レームnー1とフレームn間で線形に補間してフィルタ
係数ci(k)を求め、これと式(2), (4)から式(7)にした
がって補間補償フィルタの伝達特性 Xi(z)を求める。
【0123】
【数5】
【0124】
【数6】
【0125】
【数7】
【0126】補間補償フィルタ47は、合成フィルタ2
2から入力される合成音声に対して前記補間補償特性を
与え、出力音声6を出力する。
【0127】以上がこの実施の形態のディジタルフィル
タ補間法を用いた音声復号化装置に特徴的な動作であ
る。
【0128】この実施の形態によれば、位相振幅特性付
加フィルタと合成フィルタを別個に補間した際の補間特
性を補償して、これら2つのフィルタを複合した1つの
フィルタとしてみた場合の補間特性をとるように補間補
償フィルタにより合成音声を補正することにより、合成
音声の再現性を良好にし、その品質を向上させることが
できる。
【0129】なお、この実施の形態は音声復号化装置に
ついて述べているが、本ディジタルフィルタ補間法は、
音声符号化装置、音声復号化装置の他、複数個のディジ
タルフィルタを構成要素に持つ全てのディジタル信号処
理装置に適用することができる。
【0130】実施の形態8 つづいてこの発明のディジタルフィルタ補間法の別の実
施の形態を図面に従って説明する。
【0131】図8は、この実施の形態のディジタルフィ
ルタ補間法を用いた音声復号化装置の構成を示すブロッ
ク図である。この図において、図11と同一の部分につ
いては同一の符号を付し、説明を省略する。
【0132】この実施の形態において新たな構成は、位
相振幅特性付加フィルタと合成フィルタとを複合した一
つのフィルタとしてみた場合の補間特性が得られるよう
に位相振幅付加フィルタの特性を求め、その結果により
位相振幅付加フィルタの特性を設定する特性補間設定手
段としての位相振幅特性補間手段48である。
【0133】以下、上記の新たな構成を中心に動作を説
明する。
【0134】位相振幅特性復号化手段28は、位相振幅
特性の符号に対応する位相振幅特性を復号化し、遅延器
29と位相振幅特性補間手段48に出力する。遅延器2
9は前記復号化した位相振幅特性を1フレーム分遅延し
て位相振幅特性補間手段48に出力する。
【0135】線形予測パラメータ復号化手段19は、線
形予測パラメータの符号に対応する線形予測パラメータ
を復号化し、遅延器20、線形予測パラメータ補間手段
21及び位相振幅特性補間手段48に出力する。遅延器
20は前記復号化した線形予測パラメータを1フレーム
分時間遅延して線形予測パラメータ補間手段21と位相
振幅特性補間手段48に出力する。線形予測パラメータ
補間手段21は前記遅延器20から入力される前フレー
ムの復号化した線形予測パラメータと前記線形予測パラ
メータ復号化手段19から入力される現フレームの復号
化した線形予測パラメータを図10に示す方法で、例え
ば1/4フレーム周期毎に補間し、補間した線形予測パラ
メータを合成フィルタ22に出力する。
【0136】位相振幅特性補間手段48は、前記前フレ
ームの復号化した位相振幅特性と前記前フレームの復号
化した線形予測パラメータから、前記位相振幅特性付加
フィルタ31と合成フィルタ22を複合した1つのフィ
ルタとみた場合の前フレームのフィルタ特性を求め、ま
た、前記現フレームの復号化した位相振幅特性と前記現
フレームの復号化した線形予測パラメータから前記位相
振幅特性付加フィルタ31と合成フィルタ22を複合し
た1つのフィルタとみた場合の現フレームのフィルタ特
性を求め、前記前フレームのフィルタ特性と前記現フレ
ームのフィルタ特性を図10に示す方法で、例えば1/4
フレーム周期毎に補間する。次に、前記補間した線形予
測パラメータから合成フィルタの逆特性を求め、この逆
特性を前記補間したフィルタ特性に乗算することにより
補間補償をした位相振幅特性を求め、位相振幅特性付加
フィルタ31に出力する。
【0137】ここで、フレームnで復号化された合成フ
ィルタ22及び位相振幅特性付加フィルタ31の伝達関
数は例えばそれぞれ式(1), (3)で表現され、位相振幅特
性補間手段48はこれら2つのフィルタを複合した伝達
関数を例えば式(5)のようにFIRフィルタで近似してフィ
ルタ係数cn(k)を求め、これを例えば式(6)に従ってフ
レームnー1とフレームn間で線形に補間してフィルタ
係数ci(k)を求め、これと式(2)から式(8)にしたがって
補間補償をした位相振幅特性を求め、これを位相振幅特
性付加フィルタ31で実現するためにNp次のFIRフィル
タで近似してフィルタ係数を求める。
【0138】
【数8】
【0139】以上がこの実施の形態のディジタルフィル
タ補間法を用いた音声復号化装置に特徴的な動作であ
る。
【0140】この実施の形態によれば、位相振幅特性付
加フィルタと合成フィルタを別個に補間した際の補間特
性を補償して、これら2つのフィルタを複合した1つの
フィルタとして見た場合の補間特性をとるように位相振
幅特性付加フィルタの特性を求めることにより、新たに
フィルタを追加する必要がなく、既存のフィルタのみを
用いても合成音声の再現性を良好にし、その品質を向上
させることができる。
【0141】なお、この実施の形態は音声復号化装置に
ついて述べているが、本ディジタルフィルタ補間法は、
音声符号化装置、音声復号化装置の他、複数個のディジ
タルフィルタを構成要素に持つ全てのディジタル信号処
理装置に適用することができる。
【0142】実施の形態9.上記実施の形態7及び8で
は複合したフィルタの補間特性を式(6)のようにFIRフィ
ルタのフィルタ係数を線形に補間して求めており、これ
は該復号したフィルタのインパルス応答を時間波形上で
補間していることになるが、インパルス応答の時間波形
を例えばFFTして周波数軸上の表現に変換し、振幅特性
と位相特性に分離し、これらを別々に補間するとしても
よい。
【0143】
【発明の効果】以上詳述したように、請求項1及び請求
項4に記載の発明によれば、音声符号化装置で音源信号
に短期の位相振幅特性を付加するフィルタの次数を可変
とし、また音声復号化装置でも符号化装置に対応するよ
うにフィルタの次数を可変としたので、音源信号の位相
振幅特性の再現性が良くなるようにフィルタ次数を選択
して符号化、復号化でき、高品質の音声を合成すること
ができる。
【0144】また、請求項2に記載の発明によれば、音
源信号に位相振幅特性を付加するフィルタの次数を入力
音声の特徴に応じて変更するようにしたので、入力音声
に対応して音源信号の位相振幅特性の再現性が良くなる
フィルタ次数を求められ、高品質の音声を合成すること
ができる。
【0145】また、請求項3及び請求項5に記載の発明
によれば、音源信号に位相振幅特性を付加するフィルタ
の次数を音声符号に応じて変更するようにしたので、伝
送情報量を増加させることなく入力音声に対応して音源
信号の位相振幅特性の再現性が良くなるフィルタ次数を
求められ、高品質の音声を合成することができる。
【0146】また、請求項6に記載の発明によれば、音
声符号化側で音源信号に位相振幅特性を付加するフィル
タの次数を可変とし、また音声復号化側でも符号化側に
対応するようにフィルタの次数を可変としたので、音源
信号の位相振幅特性の再現性が良くなるようにフィルタ
次数を選択して符号化、復号化でき、高品質の音声を合
成することができる。
【0147】また、請求項7に記載の発明によれば、音
源信号情報を符号化する際に、該区間以後において生成
される合成音声を予測して生成し、入力音声と合成音声
との歪みを評価するようにしたので、後続する区間の合
成音声に悪影響を与えない音源信号を生成でき、高品質
の音声を合成することができる。
【0148】また、請求項8に記載の発明によれば、複
数個のディジタルフィルタから構成される複合ディジタ
ルフィルタで、フィルタ特性を補間する際に、複合ディ
ジタルフィルタのフィルタ特性を補間した特性が得られ
るように、フィルタ特性を補償するフィルタを挿入する
ようにしたので、ディジタルフィルタの補間特性を向上
させることができる。
【0149】また、請求項9に記載の発明によれば、音
声符号化装置または音声復号化装置に請求項8に記載の
複合ディジタルフィルタを用いるようにしたので、合成
音声の再現性を良好にし、その品質を向上させることが
できる。
【0150】また、請求項10に記載の発明によれば、
複数個のディジタルフィルタから構成される複合ディジ
タルフィルタで、フィルタ特性を補間する際に、特性補
間設定手段により複合ディジタルフィルタのフィルタ特
性を補間する特性を演算し、この演算結果により、各フ
ィルタの特性を設定するようにしたので、ディジタルフ
ィルタの補間特性を向上させることができる。
【0151】また、請求項11に記載の発明によれば、
音声符号化装置または音声復号化装置に請求項10に記
載のディジタルフィルタ補間法を用いるようにしたの
で、合成音声の再現性を良好にし、その品質を向上させ
ることができる。
【図面の簡単な説明】
【図1】この発明の実施の形態1の構成を示すブロック
図である。
【図2】この発明の実施の形態1における位相振幅特性
符号化手段の構成の一例を示すブロック図である。
【図3】この発明の実施の形態2の構成を示すブロック
図である。
【図4】この発明の実施の形態3の構成を示すブロック
図である。
【図5】この発明の実施の形態4の構成を示すブロック
図である。
【図6】この発明の実施の形態4における音源探索にお
ける音源信号、合成音声の時間関係を示す説明図であ
る。
【図7】この発明の実施の形態7の構成を示すブロック
図である。
【図8】この発明の実施の形態8の構成を示すブロック
図である。
【図9】従来の符号駆動線形予測符号化復号化装置の一
例の構成を示すブロック図である。
【図10】従来の符号化フレーム構成の一例を示す説明
図である。
【図11】従来の音源信号の位相振幅特性を符号化する
符号駆動線形予測符号化復号化装置の一例の構成を示す
ブロック図である。
【図12】音源信号の位相振幅特性を符号化する符号駆
動線形予測符号化復号化装置における音源信号から合成
音声を生成する過程を示す説明図である。
【図13】ピッチ周期と位相振幅特性付加フィルタのイ
ンパルス応答長の関係を示す説明図である。
【符号の説明】
1:符号化部、 2:復号化部 3:多重化手段、 4:分離手段 5:入力音声、 6:出力音声 7:線形予測パラメータ分析手段、8:線形予測パラメ
ータ符号化手段 9、20:遅延器、 10、21:線形予
測パラメータ補間手段 11、22: 合成フィルタ、 12、16:適応音
源符号帳 13、17:駆動音源符号帳、 14:最適音源探索
手段 15:音源利得符号化手段、 18: 音源利得復
号化手段 19:線形予測パラメータ復号化手段 23:位相振幅特性分析手段、 24: 位相振幅特
性符号化手段 25, 29:遅延器、 26, 30:位相振
幅特性補間手段 27、31:位相振幅特性付加フィルタ 28:位相振幅特性復号化手段、 32:位相振幅特性
分析手段 33:位相振幅特性符号化手段 34、37:位相振幅特性付加フィルタ 35:最適音源探索手段、 36:位相振幅特性
復号化手段 38:ピッチ抽出手段、 39:位相振幅特性
次数決定手段 40、42:ピッ チ推定手段 41、43:位相振幅特性次数決定手段 44:合成フィルタ、 45: 最適 音源探
索手段 46:補間補償特性算出手段、 47:補間補償フィ
ルタ 48:位相振幅特性補間手段 50、51、54、
55:増幅器 52、56:加算器 53:減算器

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音源信号生成手段と、前記音源信号生成
    手段から出力される音源信号に位相振幅特性を付加する
    位相振幅特性付加フィルタと、前記位相振幅特性を付加
    した音源信号から合成音声を生成する合成フィルタとを
    備える符号駆動線形予測(CELP)符号化装置において、 前記位相振幅特性付加フィルタはその次数が可変に構成
    されたことを特徴とする音声符号化装置。
  2. 【請求項2】 請求項1に記載の音声符号化装置におい
    て、前記位相振幅特性付加フィルタの次数は入力音声の
    特徴に応じて変更する構成にされたことを特徴とする音
    声符号化装置。
  3. 【請求項3】 請求項1に記載の音声符号化装置におい
    て、前記位相振幅特性付加フィルタの次数は入力音声を
    符号化した符号に応じて変更する構成にされたことを特
    徴とする音声符号化装置。
  4. 【請求項4】 音源信号生成手段と、前記音源信号生成
    手段から出力される音源信号に短期の位相振幅特性を付
    加する位相振幅特性付加フィルタと、前記位相振幅特性
    を付加した音源信号から合成音声を生成する合成フィル
    タとを備える符号駆動線形予測(CELP)復号化装置におい
    て、位相振幅特性付加フィルタはその次数が可変に構成
    されたことを特徴とする音声復号化装置。
  5. 【請求項5】 請求項4に記載の音声復号化装置におい
    て、前記位相振幅特性付加フィルタの次数は復号化した
    符号に応じて変更する構成にされたことを特徴とする音
    声復号化装置。
  6. 【請求項6】 符号化側においては、入力音声信号を線
    形予測分析して得られる線形予測パラメータを符号化
    し、入力音声信号の線形予測残差信号を分析して得られ
    る短期の位相振幅特性を符号化し、音源符号帳より最適
    な合成音声を生成する音源信号を選択、符号化する一
    方、 復号化側においては、入力された符号に基づき音源信号
    と位相振幅特性と線形予測パラメータとを生成し、出力
    音声信号を得る符号駆動線形予測(CELP)符号化復号化方
    法において、符号化側は、位相振幅特性付加フィルタの
    次数を変更する工程を含み、復号化側は、位相振幅特性
    付加フィルタの次数を前記符号化側の位相振幅特性付加
    フィルタの次数に対応して変更する工程を含むことを特
    徴とする音声符号化復号化方法。
  7. 【請求項7】 音源信号生成手段と、前記音源信号生成
    手段から出力される音源信号から合成音声を生成する合
    成フィルタと、入力音声と前記合成フィルタで生成され
    た合成音声との歪みを評価し、歪みが最小となる音源信
    号を決定する最適音源探索手段とを備え、一定区間毎に
    音源信号情報を符号化する符号駆動線形予測(CELP)符号
    化装置において、 前記合成フィルタは前記一定区間に加え、該区間以後所
    定の区間も予測して合成音声を生成する構成とし、前記
    最適音源探索手段は前記合成音声生成区間に対応する入
    力音声と前記合成音声との歪みを評価し、歪みが最小と
    なる音源信号を決定する構成としたことを特徴とする音
    声符号化装置。
  8. 【請求項8】 複数個のディジタルフィルタから構成さ
    れ、各フィルタのフィルタ特性は離散時間点で与えらる
    複合ディジタルフィルタであって、 各フィルタ特性を補間する際に、前記複合ディジタルフ
    ィルタのフィルタ特性を補間した特性を得るフィルタ特
    性のフィルタを備えたことを特徴とする複合ディジタル
    フィルタ。
  9. 【請求項9】 請求項8に記載の複合ディジタルフィル
    タを用いることを特徴とする音声符号化装置または音声
    復号化装置。
  10. 【請求項10】 複数個のディジタルフィルタから構成
    され、各フィルタのフィルタ係数は離散時間点で与えら
    れる複合ディジタルフィルタであって、 各フィルタ特性を補間する際に、複合ディジタルフィル
    タのフィルタ特性を補間した特性が得られるように各フ
    ィルタの特性を設定する特性補間設定手段を備えたこと
    を特徴とする複合ディジタルフィルタ。
  11. 【請求項11】 請求項10に記載の複合ディジタルフ
    ィルタを用いることを特徴とする音声符号化装置または
    音声復号化装置。
JP7247827A 1995-09-26 1995-09-26 音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ Pending JPH0990997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7247827A JPH0990997A (ja) 1995-09-26 1995-09-26 音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7247827A JPH0990997A (ja) 1995-09-26 1995-09-26 音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ

Publications (1)

Publication Number Publication Date
JPH0990997A true JPH0990997A (ja) 1997-04-04

Family

ID=17169265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7247827A Pending JPH0990997A (ja) 1995-09-26 1995-09-26 音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ

Country Status (1)

Country Link
JP (1) JPH0990997A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002013183A1 (fr) * 2000-08-09 2002-02-14 Sony Corporation Procede et dispositif de traitement de donnees vocales
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JP2002149175A (ja) * 2000-11-14 2002-05-24 Sony Corp 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
US7283961B2 (en) 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002013183A1 (fr) * 2000-08-09 2002-02-14 Sony Corporation Procede et dispositif de traitement de donnees vocales
US7283961B2 (en) 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
US7912711B2 (en) 2000-08-09 2011-03-22 Sony Corporation Method and apparatus for speech data
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JP2002149175A (ja) * 2000-11-14 2002-05-24 Sony Corp 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JP4517262B2 (ja) * 2000-11-14 2010-08-04 ソニー株式会社 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体

Similar Documents

Publication Publication Date Title
CA2160749C (en) Speech coding apparatus, speech decoding apparatus, speech coding and decoding method and a phase amplitude characteristic extracting apparatus for carrying out the method
US20060173677A1 (en) Audio encoding device, audio decoding device, audio encoding method, and audio decoding method
EP1881488B1 (en) Encoder, decoder, and their methods
JP3364825B2 (ja) 音声符号化装置および音声符号化復号化装置
JP2002268690A (ja) 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
KR20070028373A (ko) 음성음악 복호화 장치 및 음성음악 복호화 방법
KR20070029754A (ko) 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법
JP3357795B2 (ja) 音声符号化方法および装置
JPH09152896A (ja) 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
JP3888097B2 (ja) ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
JPH0990997A (ja) 音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ
EP1204094B1 (en) Excitation signal low pass filtering for speech coding
US4908863A (en) Multi-pulse coding system
JPH08234795A (ja) 音声符号化装置
JP3249144B2 (ja) 音声符号化装置
JP3785363B2 (ja) 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法
JP3192051B2 (ja) 音声符号化装置
JP3290443B2 (ja) コード励振線形予測符号化器及び復号化器
JP3714786B2 (ja) 音声符号化装置
JPH0981195A (ja) 音声符号化装置
JP2775533B2 (ja) 音声の長期予測装置
JP2817196B2 (ja) 音声符号化方式
JPH09185395A (ja) 音声符号化装置及び音声復号化装置
JPH0667696A (ja) 音声符号化方法
JPH06138897A (ja) 音声符号化装置