JP3471542B2 - 音声符号化装置 - Google Patents

音声符号化装置

Info

Publication number
JP3471542B2
JP3471542B2 JP30714396A JP30714396A JP3471542B2 JP 3471542 B2 JP3471542 B2 JP 3471542B2 JP 30714396 A JP30714396 A JP 30714396A JP 30714396 A JP30714396 A JP 30714396A JP 3471542 B2 JP3471542 B2 JP 3471542B2
Authority
JP
Japan
Prior art keywords
signal
pitch
pulse
sound source
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP30714396A
Other languages
English (en)
Other versions
JPH10133696A (ja
Inventor
澤 一 範 小
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP30714396A priority Critical patent/JP3471542B2/ja
Priority to CA002213909A priority patent/CA2213909C/en
Priority to CA002301995A priority patent/CA2301995C/en
Priority to CA002301994A priority patent/CA2301994C/en
Priority to DE69725945T priority patent/DE69725945T2/de
Priority to EP01119628A priority patent/EP1162604B1/en
Priority to DE69732384T priority patent/DE69732384D1/de
Priority to EP97114753A priority patent/EP0834863B1/en
Priority to US08/917,713 priority patent/US5963896A/en
Priority to DE69727256T priority patent/DE69727256T2/de
Priority to EP01119627A priority patent/EP1162603B1/en
Publication of JPH10133696A publication Critical patent/JPH10133696A/ja
Application granted granted Critical
Publication of JP3471542B2 publication Critical patent/JP3471542B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、低ビットレート且
つ高品質で音声信号を符号化する音声符号化装置に関す
る。
【従来の技術】
【0002】音声信号を高能率に符号化する方式として
は、例えば、M.Schroeder and B.Atal氏による”Code-e
xcited linear prediction:High quality speech at ve
rylow bit rates"(Proc.ICASSP,pp. 937-940,1985年)と
題した論文(文献1)や、Klejin氏らによる”Improved
speech quality and efficeint vector quantization
in SELP”(Proc.ICASSP,pp,155-158,1988年)と題した
論文(文献2)等に記載されているCELP(Code Excited
Linear Predictive Coding)が知られている。この従来
例では、送信側では、フレーム毎(例えば20ms)に
音声信号から線形予測(LPC)分析を用いて、音声信
号のスペクトル特性を表わすスペクトルパラメータを抽
出する。フレームを更にサブフレーム(例えば5ms)
に分割し、サブフレーム毎に過去の音源信号を基に適応
コードブックにおけるパラメータ(ピッチ周期に対応す
る遅延パラメータとゲインパラメータ)を抽出し、適応
コードブックにより前記サブフレームの音声信号をピッ
チ予測する。ピッチ予測して求めた音源信号に対して、
予め定められた種類の雑音信号からなる音源コードブッ
ク(ベクトル量子化コードブック)から最適な音源コー
ドベクトルを選択し、最適なゲインを計算することによ
り、音源信号を量子化する。音源コードベクトルの選択
の仕方は、選択した雑音信号により合成した信号と、前
記残差信号との誤差電力を最小化するように行う。そし
て、選択されたコードベクトルの種類を表わすインデク
スとゲインならびに、前記スペクトルパラメータと適応
コードブックのパラメータをマルチプレクサ部により組
み合わせて伝送する。受信側の動作、構成は周知である
ので説明は省略する。
【0003】
【発明が解決しようとする課題】しかしながら、前記の
音声符号化装置では、音源コードブックから最適な音源
コードベクトルを選択するのに多大な演算量を要すると
いう問題があった。これは、文献1や2の方法では、音
源コードベクトルを選択するのに、各コードベクトルに
対してフィルタリングもしくは畳み込み演算を、コード
ブックに格納されているコードベクトルの個数だけ繰り
返さなければならないことに起因する。例えば、コード
ブックのビット数がBビットで次元数がNのときは、フ
ィルタリングあるいは畳み込み演算の時のフィルタある
いはインパルス応答長をKとすると、演算量は1秒当た
り、N×K×2B×8000/Nだけ必要となる。一例
として、B=10、N=40、K=10とすると、1秒
当たり81,920,000回の演算が必要となり、極
めて膨大な演算量になってしまうという問題点があっ
た。
【0004】そこで、音源コードブック探索に必要な演
算量を低減する方法として、種々のものが提案されてい
る。例えば、ACELP(Argebraic Code Excited Linear P
rediction)方式が、例えば、C.Laflammeらによる“16
kbps wideband speech coding technique based on al
gebraic CELP"と題した論文(Proc.ICASSP,pp.13-16,19
91)(文献3)等に開示されている。ACELP方式によれ
ば、音源信号を複数個のパルスで表わし、各パルスのた
つ位置は、各パルス毎に予め定められた位置の候補から
選択し、これを予め定められたビット数で表わして伝送
する。ここで、各パルスの振幅は+1.0もしくは−
1.0に限定されているため、パルス探索の演算量を大
幅に低減化できる。
【0005】文献3の従来方式では、演算量を大幅に低
減化することが可能となるが、ビットレートを低減化す
ると、サブフレーム当たりのパルスの個数が急速に減少
し、音質が大幅に劣化するという問題がある。
【0006】そこで、本発明の目的は、上述の問題点を
解決し、ビットレートが低い場合にも比較的少ない演算
量で音質の劣化の少ない音声符号化方式を提供すること
にある。
【0007】
【課題を解決するための手段】前述の課題を解決するた
め、本発明の第1の態様による音声符号化方式は、入力
音声信号からスペクトルパラメータを求めて量子化する
スペクトルパラメータ計算部と、前記音声信号からピッ
チ周期に対応する遅延を求めてピッチ予測信号を計算し
ピッチ予測を行なう適応コードブック部と、前記音声信
号の音源信号を個数Mの振幅が非零のパルスから構成
し、前記ピッチ予測信号に対して予め定められた条件を
満たす前記パルス位置対応のサンプル位置を求め、求め
られたサンプル位置から予め定められたサンプル数だけ
ずらせた位置をもとに前記パルスの位置を探索する範囲
を設定し、設定された範囲に対して最良の位置を探索し
出力する音源量子化部とを有する。
【0008】また、本発明の第2の態様による音声符号
化装置は、入力音声信号からスペクトルパラメータを求
めて量子化するスペクトルパラメータ計算部と、前記音
声信号からピッチ周期に当たる遅延を求めピッチ予測信
号を計算しピッチ予測を行なう適応コードブック部と、
前記音声信号の音源信号を個数Mの振幅が非零のパルス
で構成し、先頭からピッチ周期に等しい長さの区間にお
いて前記ピッチ予測信号に対して予め定められた条件を
満たすサンプル位置を求め前記位置から予め定められた
サンプル数だけずらせた位置をもとにパルスの位置を探
索する範囲を設定し、前記範囲に対して最良の位置を探
索し出力する音源量子化部とを有する。
【0009】本発明の第3の態様による音声符号化装置
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に当たる遅延を求めピッチ予測信号を計
算しピッチ予測を行なう適応コードブック部と、前記音
声信号の音源信号を個数Mの振幅が非零のパルスで構成
し、先頭からピッチ周期に等しい長さの区間において前
記ピッチ予測信号に対して予め定められた条件を満たす
サンプル位置を求め、前記位置から予め定められたサン
プル数だけずらぜた位置をもとにパルスの位置の候補を
前記ピッチ周期だけずらせながら設定し、前記候補位置
を探索し最良の位置を出力する音源量子化部とを有す
る。
【0010】ここで、音源量子化部において、複数個の
パルスの振幅もしくは極性をまとめて量子化するための
コードブックを有する。
【0011】本発明の第4の態様による音声符号化装置
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に当たる遅延を求めピッチ予測信号を計
算しピッチ予測を行なう適応コードブック部と、前記音
声信号の音源信号を個数Mの振幅が非零のパルスで構成
し、前記ピッチ予測信号に対して予め定められた条件を
満たすサンプル位置を求め、複数種のずらし量の各々を
用いて前記位置からずらした後の位置をもとに前記パル
スの位置を探索する範囲を設定し前記範囲に対して位置
を探索し、最良となるずらし量とパルスの位置の組合せ
を出力する音源量子化部とを有する。
【0012】本発明の第5の態様による音声符号化装置
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に当たる遅延を求めピッチ予測信号を計
算しピッチ予測を行なう適応コードブック部と、前記音
声信号の音源信号を個数Mの振幅が非零のパルスで構成
し、先頭からピッチ周期に等しい長さの区間において前
記ピッチ予測信号に対して予め定められた条件を満たす
サンプル位置を求め、複数種のずらし量の各々を用いて
前記位置からずらせた後の位置をもとに前記パルスの位
置を探索する範囲を設定し前記範囲に対して位置を探索
し、最良となるずらし量とパルスの位置の組合せを出力
する音源量子化部とを有する。
【0013】本発明の第6の態様による音声符号化装置
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に当たる遅延を求めピッチ予測信号を計
算しピッチ予測を行なう適応コードブック部と、前記音
声信号の音源信号を個数Mの振幅が非零のパルスで構成
し、先頭からピッチ周期に等しい長さの区間において前
記ピッチ予測信号に対して予め定められた条件を満たす
サンプル位置を求め、複数種のずらし量の各々を用いて
前記位置からずらせた後の位置をもとに、更に前記ピッ
チ周期だけずらせながら前記パルスをたてる位置の候補
を設定し、前記位置を探索し、最良となるずらし量とパ
ルスの位置の組合せを出力する音源量子化部とを有す
る。
【0014】ここで、音源量子化部において、複数個の
パルスの振幅もしくは極性をまとめて量子化するための
コードブックを有する。
【0015】本発明の第7の態様による音声符号化装置
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、入力音声信号
から特徴量を抽出して複数のモードを判別し出力するモ
ード判別部と、前記音声信号からピッチ周期に当たる遅
延を求めピッチ予測信号を計算しピッチ予測を行なう適
応コードブック部と、前記音声信号の音源信号を個数M
の振幅が非零のパルスで構成し、予め定められたモード
の場合に、前記ピッチ予測信号に対して予め定められた
条件を満たすサンプル位置を求め、前記位置をもとに、
前記パルスの位置を探索する範囲を設定し、前記範囲に
対して最良を探索し出力する音源量子化部とを有する。
【0016】ここで、前記特徴量は平均ピッチ予測ゲイ
ンであり、また前記モード判別部は前記平均ピッチ予測
ゲインと予め定められた複数個のしきい値との比較結果
に基づいてモードを判別する。
【0017】本発明の第8の態様による音声符号化装置
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に対応する遅延を求めてピッチ予測信号
を計算し、ピッチ予測を行なう適応コードブック部と、
前記適応コードブックで求めたピッチ予測信号に対して
予め定められた条件を満たす位置を求め、求められた位
置に基づいて音源信号を表わす複数個のパルスの位置の
探索範囲を設定し、この探索範囲の中で前記複数個のパ
ルスの最良の位置を探索する音源量子化部とを備えて成
る。
【0018】
【実施態様】図1は本発明による音声符号化装置の第1
の実施の形態を示すブロック図である。図1において、
入力端子100から音声信号が入カされ、フレーム分割
回路110では上記音声信号がフレーム(例えば10m
s)毎に分割され、サブフレーム分割回路120では、
上記フレーム音声信号をフレームよりも短いサブフレー
ム(例えば、5ms)に分割される。
【0019】スペクトルパラメータ計算回路200は、
少なくとも一つのサブフレームの音声信号に対して、サ
ブフレーム長よりも長い窓(例えば、24ms)をかけ
て音声を切り出してスペクトルパラメータを予め定めら
れた次数(例えばP=10次)計算する。ここで、スペ
クトルパラメータの計算には、周知のLPC分析や、B
urg分析等を用いることができる。ここでは、Bur
g分析を用いることとする。Burg分析の詳細につい
ては、中溝著による”信号解析とシステム同定”と題し
た単行本(コロナ社1988年刊)の82〜87頁(文
献4)等に記載されているので説明は省略する。更に、
スペクトルパラメータ計算部は、Burg法により計算
された線形予測係数αi(i=1,・・・,10)を量
子化や補間に適したLSPパラメータに変換する。ここ
で、線形予測係数からLSPへの変換は、菅村他によ
る”線スペクトル対(LSP)音声分析合成方式による
音声情報圧縮”と題した論文(電子通信学会論文誌、J
64−A、pp.599−606、1981年)(文献
5)を参照することができる。例えば、第2サブフレー
ムでBurg法により求めた線形予測係数を、LSPパ
ラメータに変換し、第1サブフレームのLSPを直線補
間により求めて、第1サブフレームのLSPを逆変換し
て線形予測係数に戻し、第1,2サブフレームの線形予
測係数αil、i=1,・・・,10、l=1,・・・,
2)を聴感重み付け回路230に出力する。また、第2
サブフレームのLSPをスペクトルパラメータ量子化回
路210へ出力する。
【0020】スペクトルパラメータ量子化回路210
は、予め定められたサブフレームのLSPパラメータを
コードブック220を用いて効率的に量子化し、下式の
歪みを景小化する量子化値を出力する。
【数1】 ここで、LSP(i),QLSP(i)、W(i)はそ
れぞれ、量子化前のi次目のLSP、コードブック22
0に格納されたj番目のコードベクトル、重み係数であ
る。
【0021】以下では、量子化法として、ベクトル量子
化を用いるものとし、第2サブフレームのLSPパラメ
ータを量子化するものとする。LSPパラメータのベク
トル量子化の手法としては周知の手法を用いることがで
きる。具体的な手法は、例えば、特開平4−17150
0号公報(特願平5−297600号)(文献6)、特
開平4−363000号公報(特願平3−261925
号)(文献7)、特開平5−6199号公報(特願平3
−155049号)(文献8)、T.Nomura etal.,によ
る“LSP Coding Using VQSVQ with Interpolation in
4.075kbps M-LCELP Speech Coder”と題した論文(Pro
c.Mobile Multimedia Communications,pp.B.2.5,1993)
(文献9)等を参照できるのでここでは説明は略する。
【0022】また、スペクトルパラメータ量子化回路2
10は、第2サブフレームで量子化したLSPパラメー
タをもとに、第1サブフレームのLSPパラメータを復
元する。ここでは、現フレームの第2サブフレームの量
子化LSPパラメータと1つ過去のフレームの第2サブ
フレームの量子化LSPを直線補間して、第1サブフレ
ームのLSPを復元する。ここで、量子化前のLSPと
量子化後のLSPとの誤差電力を量子化するコードベク
トルを1種類選択した後に、直線補間により第1サブフ
レームのLSPを復元できる。
【0023】以上により復元した第1サブフレームのL
SPと第2サブフレームの量子化LSPをサブフレーム
毎に線形予測係数αil'(i=1,・・・,10,l=
1,…,2)に変換し、インパルス応答計算回路310
へ出力する。また、第2サブフレームの量子化LSPの
コードベクトルを表わすインデクスをマルチプレクサ4
00に出力する。
【0024】聴感重み付け回路230は、スペクトルパ
ラメータ計算回路200から、各サブフレーム毎に量子
化前の線形予測係数αij'(i=1,・・・,P)を入
力し、前記文献1に基づき、サブフレームの音声信号に
対して聴感重み付けを行い、聴感重み付け信号を出力す
る。
【0025】応答信号計算回路240は、スペクトルパ
ラメータ計算回路200から、各サブフレーム毎に線形
予測係数αiを入力し、スペクトルパラメータ量子化回
路210から、量子化、補間して復元した線形予測係数
αi'をサブフレーム毎に入力し、保存されているフィル
タメモリの値を用いて、入力信号を零d(n)=0とし
た応答信号を1サブフレーム分計算し、減算器235へ
出力する。ここで、応答信号xz(n)は下式で表され
る。
【数2】 但し、n−i≦0のときは
【数3】
【数4】 ここで、Nはサブフレーム長を示す。γは、聴感重み付
け量を制御する重み係数であり、下記の式(6)と同一
の値である。sw(n)、p(n)は、それぞれ、重み
付け信号計算回路の出力信号、後述の式(6)における
右辺第1項のフィルタの分母の項の出力信号をそれぞれ
示す。
【0026】滅算器235は、下式により、聴感重み付
け信号から応答信号を1サブフレーム分減算し、xw'
(n)を適応コードブック回路300へ出力する。
【数5】
【0027】インパルス応答計算回路310は、z変換
が下式で表される聴感重み付けフィルタのインパルス応
答hw(n)を予め定められた点数Lだけ計算し、適応
コードブック回路300、音源量子化回路350へ出力
する。
【数6】
【0028】適応コードブック回路300は、重み付け
信号計算回路360から遇去の音源信号v(n)を、減
算器235から出力信号xw'(n)を、インパルス応答
計算回路310から聴感重み付けインパルス応答h
w(n)を入力する。ピッチ周期に対応する遅延Tを下
式の歪みを最小化するように求め、遅延を表わすインデ
クスをマルチプレクサ400に出力する。
【数7】 ここで、
【数8】 はピッチ予測信号を示し、記号*は畳み込み演算を表わ
す。ゲインβは下式に従い求める。
【数9】
【0029】ここで、女性音や、子供の声に対して、遅
延の抽出楕度を向上させるために、遅延を整数サンブル
ではなく、小数サンブル値で求めてもよい。具体的な方
法は、例えぱ、P.Kroonらによる、“Pitch predictors
with high temporal resolution"と題した論文(Proc.I
CASSP,pp.661-664,1990年)(文献10)等を参照する
ことができる。
【0030】更に、適応コードブック回路300は、選
択された遅延とゲインを用いて下式に従いピッチ予測を
行ない、予測残差信号zw(n)を音源量子化回路35
0へ出力する。
【数10】 更に、選択された遅延を用いたピッチ予測信号を音源量
子化回路350へ出力する。
【0031】音源量子化回路350では、サブフレーム
に対して、振幅が非零のM個のパルスをたてる。
【0032】音源量子化回路350の構成を示すブロッ
ク図を図2に示す。絶対値最大位置検出回路351は、
ピッチ予測信号yw(n)に対して、予め定められた条
件を満たすサンプル位置を検出する。ここでは、「振幅
の絶対値が最大」という条件を使用し、それを満たすサ
ンプル位置を検出し、位置探索範囲設定回路352へ出
力する。
【0033】位置探索範囲設定回路352は、入力した
サンプル位置に対して予め定められた固定のサンプル数
Lだけ未来あるいは過去にずらした後に、各パルスの位
置の探索範囲を設定する。
【0034】例えば、入力したサンプル位置をDとし、
5msサブフレーム(40サンプル)に5個のパルスを
求める例を考えると、各パルスの探索範囲に含まれる位
置の候補の例は下表のようになる。 第1パルス D−L,D−L+5,... 第2パルス D−L+1,D−L+6,... 第3パルス D−L+2,D−L+7,... 第4パルス D−L+3,D−L+8,... 第5パルス D−L+4,D−L+9,...
【0035】次に、zw(n),hw(n)を入力し、第
1の相関関数計算回路353、第2の相関関数計算回路
354は、それぞれ、下式に従い、第1の相関関数d
(n)、第2の相関関数φを計算する。
【数11】
【数12】
【0036】パルス極性設定回路355は、位置探索範
囲設定回路352で設定された探索範囲における各パル
スの候補位置に対して、第1の相関関数d(n)の極性
を抽出し出力する。
【0037】パルス位置探索回路356は、上表に示し
た候補位置の組合せに対して次式を計算し、次式を最大
化する位置を最適位置として選択する。
【数13】 ここで、パルスの個数をMとすると、
【数14】
【数15】 である。ここで、sign(k)は、k番目のパルスの
極性を示し、パルス極性設定回路355にて予め抽出し
たものを使用する。以上により、M個のパルスの極性と
位置がゲイン量子化回路365に出力される。
【0038】また、パルスの位置を予め定められたビッ
ト数で量子化し、位置を表わすインデクスをマルチプレ
クサに出力する。また、パルスの極性をマルチプレクサ
400に出力する。
【0039】ゲイン量子化回路365は、ゲインコード
ブック367からゲインコードベクトルを読み出し、選
択された位置に対して、下式を最小化するゲインコード
ベクトルを選択し、最終的に歪みを最小化する振幅コー
ドベクトルとゲインコードベクトルの組合せを選択す
る。
【0040】ここでは、適応コードブックのゲインβ’
と、パルスで表わした音源のゲインG’の2種のゲイン
を同時にベクトル量子化する例について示す。
【数16】 ここで、βt’、Gt’は、ゲインコードブック367に
格納された2次元ゲインコードベクトルにおけるt番目
の要素である。上式の計算を、ゲインコードベクトルの
各々に対して繰り返し、歪みDtを最小化するゲインコ
ードベクトルを選択する。選択されたゲインコードベク
トルを表わすインデクスをマルチプレクサ400に出力
する。
【0041】重み付け信号計算回路360は、それぞれ
のインデクスを入力し、インデクスからそれに対応する
コードベクトルを読み出し、まず下式に基づき駆動音源
信号v(n)を求める。
【数17】 v(n)は適応コードブック回路300に出力される。
【0042】次に、スペクトルパラメータ計算回路20
0の出力パラメータ、スペクトルパラメータ量子化回路
210の出力パラメータを用いて下式により、応答信号
w(n)をサブフレーム毎に計算し、応答信号計算回
路240へ出力する。
【数18】
【0043】第2の実施の形態を示すブロック図を図3
に示す。ここでは、音源量子化回路450の動作が図1
と異なる。
【0044】音源量子化回路450の構成を図4に示
す。音源量子化回路450は、予測信号yw(n)、予
測残差信号zw(n)、聴感重み付けインパルス応答hw
(n)のみならず、適応コードブックの遅延Tを入力す
る。
【0045】絶対値最大位置計算回路451は、ピッチ
周期に相当する遅延Tを入力し、ピッチ予測信号y
w(n)に対して、サブフレームの先頭からTサンプル
までの範囲で絶対値を最大にするサンプル位置を検出
し、位置探索範囲設定回路352出力する。
【0046】第3の実施の形態を示すブロック図を図5
に示す。ここでは、音源量子化回路500の動作が図3
と異なる。音源量子化回路550の構成図を図6に示
す。
【0047】位置探索範囲設定回路552は、入力した
サンプル位置に対して予め定められた固定のサンプル数
Lだけ未来あるいは過去にずらした位置を基点とし、遅
延Tだけずらしながら、各パルスの位置の候補を設定
し、パルス位置探索回路356に出力する。
【0048】例えば、入力したサンプル位置をDとし、
5msサブフレーム(40サンプル)に5個のパルスを
求める例を考えると、各パルスの位置の候補の例は下表
のようになる。 第1パルス D−L,D−L+T,… 第2パルス D−L+1,D−L+T,… 第3パルス D−L+2,D−L+T,… 第4パルス D−L+3,D−L+T,… 第5パルス D−L+4,D−L+T,…
【0049】第4の実施の形態を示すブロック図を図7
に示す。ここでは、第1の実施の形態において、振幅コ
ードブックを使用する例について説明するが、第2、第
3の実施の形態に対して振幅コードブックを使用する場
合も同様の変更により実現できる。
【0050】図7は、図1に比べ、音源量子化回路39
0と振幅コードブック395が異なっている。音源量子
化回路390の構成を図8に示す。振幅コードブック3
95を用いてパルスの振幅を量子化する。
【0051】パルス位置探索回路356においてM個の
パルスに対して位置が求まった後で、振幅量子化回路3
97において、次式を最大化するように、振幅コードベ
クトルを振幅コードブック395から選択し、インデク
スを出力する。
【数19】 ここで、
【数20】
【数21】 である。ここで、gk,jは、k番目のパルスのj番目の
振幅コードベクトルである。
【0052】音源量子化回路390は、選択された振幅
コードベクトルを表わすインデクスをマルチプレクサ4
00に出力する。また、位置の値、振幅コードベクトル
の値をゲイン量子化回路400に出力する。
【0053】なお、本実施例では、振幅コードブックを
使用したが、代わりに、各パルスの極性を示す極性コー
ドブックを使用して探索してもよい。
【0054】図9は、第5の実施の形態を示すブロック
図である。図において、音源量子化回路600の動作が
図1と異なるので、図10を用いて構成を説明する。
【0055】図10は音源量子化回路600の構成を示
すブロック図である。位置探索範囲設定回路652は、
絶対値最大位置検出回路351の出力位置に対して、複
数種(例えばQ種)のずらし量の各々の分だけずらした
位置を基点として各パルスの探索範囲ならびに位置のセ
ットを設定し、パルスの位置の設置のセットをずらし量
の種類分だけパルス極性設定回路655とパルス位置探
索回路656に出力する。
【0056】パルス極性設定回路655は、位置探索回
路652の複数種の候補位置の各々に対して極性を抽出
し、パルス位置探索回路656へ出力する。
【0057】パルス位置探索回路656は、複数種の候
補位置の各々に対して、第1の相関関数、第2の相関関
数、極性を用いて、式(13)を最大化する位置を探索
する。この処理をずらしの種類であるQ回操り返し、Q
種の中で、式(13)を最大化する位置を最終的に選択
し、各パルスの位置と、ずらし量とを出力する。なお、
ずらし量はマルチプレクサ400に出力される。
【0058】図11は、第6の実施の形態を示すブロッ
ク図である。図において、音源量子化回路650の動作
が図3と異なるので、図12を用いて構成を説明する。
【0059】図12は音源量子化回路650の構成を示
すブロック図である。位置探索範囲設定回路652は、
絶対値最大位置検出回路451の出力位置に対して、複
数種(例えばQ種)のずらし量の各々の分だけずらした
位置を基点として、各パルスの位置を設定し、パルスの
位置のセットをずらし量の種類分だけパルス極性設定回
路655とパルス位置探索回路656に出力する。
【0060】パルス極性設定回路655は、位置探索回
路652の複数種の候補位置の各々に対して極性を抽出
し、パルス位置探索回路656へ出力する。
【0061】パルス位置探索回路656は、複数種の候
補位置の各々に対して、第1の相関関数、第2の相関関
数、極性を用いて、式(13)を最大化する位置を探索
する。この処理をずらしの種類であるQ回繰り返し、Q
種の中で、式(13)を最大化する位置を最終的に選択
し、各パルスの位置と、ずらし量とを出力する。なお、
ずらし量はマルチプレクサ400に出力される。
【0062】図13は、第7の実施の形態を示すブロッ
ク図である。図において、音源量子化回路750の動作
が図5と異なるので、図14を用いて構成を説明する。
【0063】図14は音源量子化回路750の構成を示
すブロック図である。位置探索範囲設定回路752は、
絶対値最大位置検出回路451の出力位置に対して、複
数種(例えば、Q種)のずらし量の各々の分だけずらし
た位置を基点として、更に遅延Tだけずらしながら各パ
ルスの位置を設定する。このようにして各パルスの位置
のセットをQ種類分パルス極性設定回路655とパルス
位置探索回路656に出力する。
【0064】パルス極性設定回路655は、位置探索回
路652の複数種の候補位置の各々に対して極性を抽出
し、パルス位置探索回路656へ抽出する。
【0065】パルス位置探索回路656は、複数種の候
補位置の各々に対して、第1の相関関数、第2の相関関
数、極性を用いて、式(13)を最大化する位置を探索
する。この処理をずらしの種類であるQ回繰り返し、Q
種の中で、式(13)を最大化する位置を最終的に選択
し、各パルスの位置と、ずらし量とを出力する。なお、
ずらし量はマルチプレクサ400に出力される。
【0066】図15は、第8の実施の形態を示すブロッ
ク図である。ここでは、第5の実施例の形態を示すブロ
ック図に、パルスの振幅を量子化する振幅コードブック
を付加する例について示すが、第6、第7の実施の形態
に付加することもできる。
【0067】図において、音源量子化回路850の動作
が図7と異なるので、音声量子化k回路850の構成を
図16を用いて説明する。
【0068】図16は音源量子化回路85の構成を示す
ブロック図である。位置探索範囲設定回路652は、絶
対値最大位置検出回路351の出力位置に対して、複数
種(例えぱQ種)のずらし量の各々の分だサずらした位
置を基点として、各パルスの位置を設定し、パルスの位
置のセットをずらし量の種類分だけパルス極性設定回路
655とパルス位置探索回路656に出力する。
【0069】パルス極性設定回路655は、位置探索回
路652の複数種の候補位置の各々に対して極性を抽出
し、パルス位置探索回路656へ出力する。
【0070】パルス位置探索回路656は、複数種の候
補位置の各々に対して、第1の相関関数、第2の相関関
数、極性を用いて、式(13)を最大化する位置を探索
する。この処理をずらしの種類であるQ回操り返し、Q
種の中で、式(13)を最大化する位置を最終的に選択
し、各パルスの位置と、ずらし量とを出力する。なお、
ずらし量はマルチプレクサ400に出力される。振幅量
子化回路397は図8と同一の動作を行なう。
【0071】図17は、第9の実施の形態を示すブロッ
ク図である。ここでは、第1の実施の形態をもとにする
例について示すが、他の実施の形態をもとにすることも
できる。
【0072】モード判別回路900は、聴感重み付け回
路230からフレーム単位で聴感重み付け信号を受け取
り、モード判別情報を適応コードブック回路950、音
源量子化回路960、ゲイン量子化回路965とマルチ
プレクサ400へ出力する。ここでは、モード判別に、
現在のフレームの特徴量を用いる。特徴量としては、例
えば、フレームで平均したピッチ予測ゲインを用いる。
ピッチ予測ゲインの計算は例えば下式を用いる。
【数22】 ここで、Lはフレームに含まれるサブフレームの個数で
ある。Pi、Eiはそれぞれ、i番目のサブフレームでの
音声パワー、ピッチ予測誤差パワーを示す。
【数23】
【数24】 ここで、Tは予測ゲインを最大化する最適遅延である。
【0073】フレーム平均ピッチ予測ゲインGを予め定
められた複数個のしきい値と比較して複数種類(例えば
R種)のモードに分類する。モードの個数Rとしては、
例えば4を用いることが出来る。
【0074】適応コードブック回路950は、モード情
報を受け取り、予め定められたモードの場合に、図1の
適応コードブック回路300と同一の動作を行い、遅
延、適応コードブック予測信号、予測残差信号を出力す
る。その他のモードに対しては、減算器235からの入
力信号をそのまま出力する。
【0075】音源量子化回路960は、モード情報を受
け取り、予め定められたモードの際に図1の音源量子化
回路350と同一の動作を行う。
【0076】ゲイン量子化回路965は、モード情報を
入力し、モード毎に設計された複数種のゲインコードブ
ック3671から367Rを切り替えてゲイン量子化に使
用する。ゲイン量子化の動作は図1のゲイン量子化回路
365と同一である。
【0077】上述した実施形態例に限らず、種々の変形
が可能である。例えば、複数パルスの振幅を量子化する
ためのコードブックを、音声信号を用いて予め学習して
格納しておくこともできる。コードブックの学習法は、
例えば、Linde氏らによる“An algorithm for vector
quantization design"と題した論文(IEEE Trans.Commu
n.,pp.84−95,Januay,1980)(文献11)等
を参照できる。
【0078】振幅コードブックの代わりに、パルスの個
数に等しいビット数だけ各パルスの極性の組み合わせを
用意した極性コードブックを有するようにしてもよい。
【0079】
【発明の効果】以上説明したように、本発明によれば、
音源量子化部において、適応コードブックで求めたピッ
チ予測信号に対して予め定められた条件を満たす位置を
求め、前記位置を基に、音源信号を表わす複数個のパル
スの位置の探索範囲を設定し、この範囲の中で最良の位
置を探索する。これにより、パルスの位置の探索範囲を
ピッチ波形に同期させて、ピッチ波形を表わすための音
源信号を良好に表わすことが出来るので、ビットレート
を低減化しても、従来方式に比べ良好な音質が得られ
る。
【0081】更に本発明によれば、入力音声から特徴量
を抽出して複数のモードを判別し、予め定められたモー
ドにおいて、音源量子化部で上述の処理を行うことによ
り、音声の周期性が強いモード部分に対する音質を改善
することが出来る。
【図面の簡単な説明】
【図1】本発明による音声符号化装置の第1の実施形態
を示す構成ブロック図である。
【図2】第1の実施の形態における音源量子化回路35
0の構成を示す図である。
【図3】本発明による音声符号化装置の第2の実施形態
を示す構成ブロック図である。
【図4】第2の実施の形態における音源量子化回路45
0の構成を示す図である。
【図5】本発明による音声符号化装置の第3の実施形態
を示す構成ブロック図である。
【図6】第3の実施の形態における音源量子化回路55
0の構成を示す図である。
【図7】本発明による音声符号化装置の第4の実施形態
を示す構成ブロック図である。
【図8】第4の実施の形態における音源量子化回路39
0の構成を示す図である。
【図9】本発明による音声符号化装置の第5の実施形態
を示す構成ブロック図である。
【図10】第5の実施の形態における音源量子化回路6
00の構成を示す図である。
【図11】本発明による音声符号化装置の第6の実施形
態を示す構成ブロック図である。
【図12】第6の実施の形態における音源量子化回路6
50の構成を示す図である。
【図13】本発明による音声符号化装置の第7の実施形
態を示す構成ブロック図である。
【図14】第7の実施の形態における音源量子化回路7
50の構成を示す図である。
【図15】本発明による音声符号化装置の第8の実施形
態を示す構成ブロック図である。
【図16】第8の実施の形態における音源量子化回路8
50の構成を示す図である。
【図17】本発明による音声符号化装置の第9の実施形
態を示す構成ブロック図である。
【符号の説明】
110 フレーム分割回路 120 サブフレーム分割回路 200 スペクトルパラメータ計算回路 210 スペクトルパラメータ量子化回路 220 コードブック 230 聴感重み付け回路 235 減算回路 240 応答信号計算回路 310 インパルス応答計算回路 350、390、450、500、600、650、7
50、850、960音源量子化回路 360 重み付け信号計算回路 365、965 ゲイン量子化回路 395 振幅コードブック 367 ゲインコードブック 400 マルチプレクサ 900 モード判別回路

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声信号からスペクトルパラメータを
    求めて量子化するスペクトルパラメータ計算部と、前記
    音声信号からピッチ周期に対応する遅延を求めてピッチ
    予測信号を計算しピッチ予測を行なう適応コードブック
    部と、前記音声信号の音源信号を個数Mの振幅が非零の
    パルスで構成し、前記ピッチ予測信号に対して予め定め
    られた条件を満たす前記パルス位置対応のサンプル位置
    を求め、求められたサンプル位置から予め定められたサ
    ンプル数だけずらせた位置をもとに前記パルスの位置を
    探索する範囲を設定し、設定された範囲に対して最良の
    位置を探索し出力する音源量子化部とを有する音声符号
    化装置。
  2. 【請求項2】入力音声信号からスペクトルパラメータを
    求めて量子化するスペクトルパラメータ計算部と、前記
    音声信号からピッチ周期に当たる遅延を求めピッチ予測
    信号を計算しピッチ予測を行なう適応コードブック部
    と、前記音声信号の音源信号を個数Mの振幅が非零のパ
    ルスで構成し、先頭からピッチ周期に等しい長さの区間
    において前記ピッチ予測信号に対して予め定められた条
    件を満たすサンプル位置を求め前記位置から予め定めら
    れたサンプル数だけずらせた位置をもとにパルスの位置
    を探索する範囲を設定し、前記範囲に対して最良の位置
    を探索し出力する音源量子化部とを有する音声符号化装
    置。
  3. 【請求項3】入力音声信号からスペクトルパラメータを
    求めて量子化するスペクトルパラメータ計算部と、前記
    音声信号からピッチ周期に当たる遅延を求めピッチ予測
    信号を計算しピッチ予測を行なう適応コードブック部
    と、前記音声信号の音源信号を個数Mの振幅が非零のパ
    ルスで構成し、先頭からピッチ周期に等しい長さの区間
    において前記ピッチ予測信号に対して予め定められた条
    件を満たすサンプル位置を求め、前記位置から予め定め
    られたサンプル数だけずらぜた位置をもとにパルスの位
    置の候補を前記ピッチ周期だけずらせながら設定し、前
    記候補位置を探索し最良の位置を出力する音源量子化部
    とを有する音声符号化装置。
  4. 【請求項4】音源量子化部において、複数個のパルスの
    振幅もしくは極性をまとめて量子化するためのコードブ
    ックを有することを特徴とする請求項1または2または
    3記載の音声符号化装置。
  5. 【請求項5】入力音声信号からスペクトルパラメータを
    求めて量子化するスペクトルパラメータ計算部と、前記
    音声信号からピッチ周期に当たる遅延を求めピッチ予測
    信号を計算しピッチ予測を行なう適応コードブック部
    と、前記音声信号の音源信号を個数Mの振幅が非零のパ
    ルスで構成し、前記ピッチ予測信号に対して予め定めら
    れた条件を満たすサンプル位置を求め、複数種のずらし
    量の各々を用いて前記位置からずらした後の位置をもと
    に前記パルスの位置を探索する範囲を設定し前記範囲に
    対して位置を探索し、最良となるずらし量とパルスの位
    置の組合せを出力する音源量子化部とを有する音声符号
    化装置。
  6. 【請求項6】入力音声信号からスペクトルパラメータを
    求めて量子化するスペクトルパラメータ計算部と、前記
    音声信号からピッチ周期に当たる遅延を求めピッチ予測
    信号を計算しピッチ予測を行なう適応コードブック部
    と、前記音声信号の音源信号を個数Mの振幅が非零のパ
    ルスで構成し、先頭からピッチ周期に等しい長さの区間
    において前記ピッチ予測信号に対して予め定められた条
    件を満たすサンプル位置を求め、複数種のずらし量の各
    々を用いて前記位置からずらせた後の位置をもとに前記
    パルスの位置を探索する範囲を設定し前記範囲に対して
    位置を探索し、最良となるずらし量とパルスの位置の組
    合せを出力する音源量子化部とを有する音声符号化装
    置。
  7. 【請求項7】入力音声信号からスペクトルパラメータを
    求めて量子化するスペクトルパラメータ計算部と、前記
    音声信号からピッチ周期に当たる遅延を求めピッチ予測
    信号を計算しピッチ予測を行なう適応コードブック部
    と、前記音声信号の音源信号を個数Mの振幅が非零のパ
    ルスで構成し、先頭からピッチ周期に等しい長さの区間
    において前記ピッチ予測信号に対して予め定められた条
    件を満たすサンプル位置を求め、複数種のずらし量の各
    々を用いて前記位置からずらせた後の位置をもとに、更
    に前記ピッチ周期だけずらせながら前記パルスをたてる
    位置の候補を設定し、前記位置を探索し、最良となるず
    らし量とパルスの位置の組合せを出力する音源量子化部
    とを有する音声符号化装置。
  8. 【請求項8】音源量子化部において、複数個のパルスの
    振幅もしくは極性をまとめて量子化するためのコードブ
    ックを有することを特徴とする請求項5または6または
    7記載の音声符号化装置。
  9. 【請求項9】入力音声信号からスペクトルパラメータを
    求めて量子化するスペクトルパラメータ計算部と、入力
    音声信号から特徴量を抽出して複数のモードを判別し出
    力するモード判別部と、前記音声信号からピッチ周期に
    当たる遅延を求めピッチ予測信号を計算しピッチ予測を
    行なう適応コードブック部と、前記音声信号の音源信号
    を個数Mの振幅が非零のパルスで構成し、予め定められ
    たモードの場合に、前記ピッチ予測信号に対して予め定
    められた条件を満たすサンプル位置を求め、前記位置を
    もとに、前記パルスの位置を探索する範囲を設定し、前
    記範囲に対して最良を探索し出力する音源量子化部とを
    有することを特徴とする音声符号化装置。
  10. 【請求項10】前記特徴量は平均ピッチ予測ゲインであ
    る請求項9に記載の音声符号化装置。
  11. 【請求項11】前記モード判別部は前記平均ピッチ予測
    ゲインと予め定められた複数個のしきい値との比較結果
    に基づいてモードを判別する請求項9に記載の音声符号
    化装置。
  12. 【請求項12】入力音声信号からスペクトルパラメータ
    を求めて量子化するスペクトルパラメータ計算部と、前
    記音声信号からピッチ周期に対応する遅延を求めてピッ
    チ予測信号を計算し、ピッチ予測を行なう適応コードブ
    ック部と、前記適応コードブックで求めたピッチ予測信
    号に対して予め定められた条件を満たす位置を求め、求
    められた位置に基づいて音源信号を表わす複数個のパル
    スの位置の探索範囲を設定し、この探索範囲の中で前記
    複数個のパルスの最良の位置を探索する音源量子化部と
    を備えて成ることを特徴とする音声符号化装置。
JP30714396A 1996-08-26 1996-10-31 音声符号化装置 Expired - Fee Related JP3471542B2 (ja)

Priority Applications (11)

Application Number Priority Date Filing Date Title
JP30714396A JP3471542B2 (ja) 1996-10-31 1996-10-31 音声符号化装置
CA002301995A CA2301995C (en) 1996-08-26 1997-08-25 High quality speech coder at low bit rates
CA002301994A CA2301994C (en) 1996-08-26 1997-08-25 High quality speech coder at low bit rates
CA002213909A CA2213909C (en) 1996-08-26 1997-08-25 High quality speech coder at low bit rates
EP01119628A EP1162604B1 (en) 1996-08-26 1997-08-26 High quality speech coder at low bit rates
DE69732384T DE69732384D1 (de) 1996-08-26 1997-08-26 Sprachkodierer hoher Qualität mit niedriger Bitrate
DE69725945T DE69725945T2 (de) 1996-08-26 1997-08-26 Sprachkodierer mit niedriger Bitrate
EP97114753A EP0834863B1 (en) 1996-08-26 1997-08-26 Speech coder at low bit rates
US08/917,713 US5963896A (en) 1996-08-26 1997-08-26 Speech coder including an excitation quantizer for retrieving positions of amplitude pulses using spectral parameters and different gains for groups of the pulses
DE69727256T DE69727256T2 (de) 1996-08-26 1997-08-26 Sprachkodierer hoher Qualität mit niedriger Bitrate
EP01119627A EP1162603B1 (en) 1996-08-26 1997-08-26 High quality speech coder at low bit rates

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30714396A JP3471542B2 (ja) 1996-10-31 1996-10-31 音声符号化装置

Publications (2)

Publication Number Publication Date
JPH10133696A JPH10133696A (ja) 1998-05-22
JP3471542B2 true JP3471542B2 (ja) 2003-12-02

Family

ID=17965557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30714396A Expired - Fee Related JP3471542B2 (ja) 1996-08-26 1996-10-31 音声符号化装置

Country Status (1)

Country Link
JP (1) JP3471542B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1093230A4 (en) * 1998-06-30 2005-07-13 Nec Corp speech
JP4005359B2 (ja) 1999-09-14 2007-11-07 富士通株式会社 音声符号化及び音声復号化装置

Also Published As

Publication number Publication date
JPH10133696A (ja) 1998-05-22

Similar Documents

Publication Publication Date Title
JP2746039B2 (ja) 音声符号化方式
JP3094908B2 (ja) 音声符号化装置
JP3196595B2 (ja) 音声符号化装置
CA2271410C (en) Speech coding apparatus and speech decoding apparatus
EP1005022B1 (en) Speech encoding method and speech encoding system
JP3266178B2 (ja) 音声符号化装置
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3335841B2 (ja) 信号符号化装置
JP2624130B2 (ja) 音声符号化方式
JP3308764B2 (ja) 音声符号化装置
EP1093230A1 (en) Voice coder
JP3471542B2 (ja) 音声符号化装置
JP3360545B2 (ja) 音声符号化装置
JP3003531B2 (ja) 音声符号化装置
JP3144284B2 (ja) 音声符号化装置
JP3299099B2 (ja) 音声符号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3153075B2 (ja) 音声符号化装置
JP2001318698A (ja) 音声符号化装置及び音声復号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP3092654B2 (ja) 信号符号化装置
JP3192051B2 (ja) 音声符号化装置
JPH08320700A (ja) 音声符号化装置
JPH08194499A (ja) 音声符号化装置
JP3144244B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080912

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080912

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090912

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090912

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100912

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130912

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees