JP3266178B2 - 音声符号化装置 - Google Patents

音声符号化装置

Info

Publication number
JP3266178B2
JP3266178B2 JP33864796A JP33864796A JP3266178B2 JP 3266178 B2 JP3266178 B2 JP 3266178B2 JP 33864796 A JP33864796 A JP 33864796A JP 33864796 A JP33864796 A JP 33864796A JP 3266178 B2 JP3266178 B2 JP 3266178B2
Authority
JP
Japan
Prior art keywords
signal
coefficient
quantized
outputs
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33864796A
Other languages
English (en)
Other versions
JPH10177398A (ja
Inventor
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP33864796A priority Critical patent/JP3266178B2/ja
Priority to US08/991,320 priority patent/US6009388A/en
Priority to EP97122289A priority patent/EP0849724A3/en
Priority to CA002225102A priority patent/CA2225102C/en
Publication of JPH10177398A publication Critical patent/JPH10177398A/ja
Application granted granted Critical
Publication of JP3266178B2 publication Critical patent/JP3266178B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力される音声信
号を低いビットレートで高品質に符号化するための音声
符号化装置に関する。
【0002】
【従来の技術】従来、入力される音声信号を高能率に符
号化する方式としては、例えばM.Schroeder
and B.Atal氏による“Code−exci
tedlinear prediciton:High
quality speech at very l
ow bit rates”(Proc.ICASS
P,pp.937−940,1985年)と題される論
文(以下、文献1とする)や、Kleijn氏等による
“Improved speech quality
and efficeint vector quan
tizationin SELP”(Proc.ICA
SSP,pp.155−158,1988年)と題され
る論文(以下、文献2とする)等に記載されているCE
LP(Code Excited Linear Pr
edictive Coding)が知られている。
【0003】こうした符号化方式では、送信側でフレー
ム毎(例えば20ms)に音声信号から予め定められた
次数(例えば10次)の線形予測(LPC)分析を用い
て音声信号のスペクトル特性を表わすスペクトルパラメ
ータを抽出し、これを量子化して出力する。又、フレー
ムを更にサブフレーム(例えば5ms)に分割し、サブ
フレーム毎にスペクトルパラメータを用いて過去の音源
信号に基づいて適応コードブックにおけるパラメータ
(ピッチ周期に対応する遅延パラメータ並びにゲインパ
ラメータ)を抽出し、適応コードブックによりサブフレ
ームの音声信号をピッチ予測する。
【0004】ピッチ予測して求めた音源信号に対して、
予め定められた種類の雑音信号から成る音源コードブッ
ク(ベクトル量子化コードブック)から最適な音源コー
ドベクトルを選択し、最適なゲインを計算することによ
って音源信号を量子化する。音源コードベクトルの選択
の仕方は、選択した雑音信号により合成した信号及び残
差信号の誤差電力を最小化するように行う。そして、選
択されたコードベクトルの種類を表わすインデクス及び
ゲイン、並びに量子化されたスペクトルパラメータ及び
適応コードブックのパラメータをマルチプレクサ部によ
り組み合わせて伝送する。尚、ここでは受信側の説明は
省略する。
【0005】ところで、CELP符号化に基づいて音声
信号のスペクトルパラメータの分析の精度を高める方法
として、送信側で過去の再生信号を従来よりも高い次数
で分析して再生信号のスペクトルパラメータを求め、こ
のスペクトルパラメータを用いて音声を符号化する方法
が提案されている。これに関しては、例えばJ−H.C
hen氏等による“A low−delay CELP
coder forthe CCITT 16kb/
s speech coding standar
d,”(IEEE Journal of Selec
ted Areas on Communicatio
ns,vol.10,pp.830−849,June
1992年)と題される論文(以下、文献3とする)
等に記載されているLD−CELP(Low Dela
y CELP)が知られている。LD−CELPでは、
受信側でも送信側と同様に過去の再生信号からスペクト
ルパラメータを分析して用いるので、分析次数を大幅に
増大してもスペクトルパラメータを伝送する必要はない
という利点がある。
【0006】因みに、こうした音声信号の符号化に関連
するその他の周知技術としては、例えば特開平4−34
4699号公報に開示された音声符号化・復号化方法等
が挙げられる。
【0007】
【発明が解決しようとする課題】上述した文献1や文献
2に記載された音声信号の符号化法の場合、スペクトル
パラメータをフレーム毎に常に一定の次数(例えば10
次)で分析しているため、例えばスペクトル分析の精度
を上げるために次数を2倍(例えば20次)に増大させ
ると、スペクトルパラメータの伝送ビット数が2倍とな
ってビットレートが増大してしまうという問題がある。
【0008】又、文献3に記載された音声信号の符号化
法の場合、スペクトルパラメータの分析次数を増大させ
てもスペクトルパラメータを伝送する必要はないが、常
に過去の再生信号から分析したスペクトルパラメータを
時間的にずれたフレームの音声信号に対して使用してい
るため、信号の特性が時間的に変化している箇所でスペ
クトルパラメータの整合性が悪くなり、性能や音質が劣
化されてしまうという問題がある。特に、分析の次数を
増大させる程、伝送路に誤りが発生した場合には送信側
で求めた再生信号と受信側で求めた再生信号とが一致し
なくなり、再生信号から求めたスペクトルパラメータが
送信側と受信側とで一致しなくなって受信側での音質劣
化が顕著になってしまう。
【0009】本発明は、このような問題点を解決すべく
なされたもので、その技術的課題は、比較的少ない演算
量で一層音質を改善し得る音声符号化装置を提供するこ
とにある。
【0010】
【課題を解決するための手段】本発明によれば、入力し
た音声信号を予め定められた時間長のフレームに分割
し、過去の再生信号のスペクトル特性を表わす第1の係
数を該再生信号から求めて第1の係数信号として出力す
る第1の係数分析部と、第1の係数信号を用いて音声信
号から予測残差を求めて予測残差信号として出力する残
差計算部と、予測残差信号のスペクトル特性を表わす第
2の係数を該予測残差信号から求めて第2の係数信号と
して出力する第2の係数分析部と、第2の係数信号にお
ける第2の係数を量子化して量子化係数信号として出力
する係数量子化部と、音声信号と該音声信号のインパル
ス応答とを用いて該インパルス応答を計算して得られる
当該フレームの該音声信号に関する音源信号が零でない
振幅のM個のパルス列から構成される該音源信号の振幅
又は極性及びパルスの位置を求めて量子化音源信号とし
て出力する音源計算部と、第1の係数信号及び量子化係
数信号をフィルタの係数として用いて量子化音源信号を
フィルタリングすることにより当該フレームの音声再生
を行って音声再生信号を出力する音声再生部とを有する
音声符号化装置が得られる。
【0011】一方、本発明によれば、入力した音声信号
を予め定められた時間長のフレームに分割し、過去の再
生信号のスペクトル特性を表わす第1の係数を該再生信
号から求めて第1の係数信号として出力する第1の係数
分析部と、音声信号から第1の係数信号を用いて予測残
差を求めて予測残差信号を出力すると共に、該予測残差
信号に示される該予測残差における予測利得を計算した
結果を示す予測利得信号を出力する残差計算部と、予測
利得信号に示される予測利得が予め定められた閾値を越
えるか否かを判別した結果を示す判別信号を出力する判
別部と、判別信号が予め定められた所定値を示すときに
は予測残差信号のスペクトル特性を表わす第2の係数を
該予測残差信号から求めて第2の係数信号として出力す
ると共に、該所定値以外のときには音声信号から該音声
信号のスペクトル特性を表わす第2の係数を求めて第2
の係数信号として出力する第2の係数分析部と、第2の
係数信号における第2の係数を量子化して量子化係数信
号として出力する係数量子化部と、判別信号に基づいて
第1の係数信号における第1の係数を用いるか否かを切
替え判定すると共に、音声信号と該音声信号のインパル
ス応答とを用いて該インパルス応答を計算して得られる
当該フレームの該音声信号に関する音源信号が零でない
振幅のM個のパルス列から構成される該音源信号の振幅
又は極性及びパルスの位置を求めて量子化音源信号とし
て出力する音源計算部と、判別信号に基づいて第1の係
数信号における第1の係数を用いるかを切替え判定する
と共に、第2の係数信号及び量子化係数信号をフィルタ
の係数として用いて量子化音源信号をフィルタリングす
ることにより当該フレームの音声再生を行って音声再生
信号を出力する音声再生部とを有する音声符号化装置が
得られる。
【0012】他方、本発明によれば、入力した音声信号
を予め定められた時間長のフレームに分割し、音声信号
から特徴量を抽出して複数のモードのうちの一つを選定
してモード選定信号を出力するモード判別部と、モード
選定信号における予め定められたモードに関しては過去
の再生信号のスペクトル特性を表わす第1の係数を該再
生信号から求めて第1の係数信号として出力する第1の
係数分析部と、第1の係数信号を用いて音声信号からフ
レーム毎に予測残差を求めて予測残差信号として出力す
る残差計算部と、予測残差信号のスペクトル特性を表わ
す第2の係数を該予測残差信号から求めて第2の係数信
号として出力する第2の係数分析部と、第2の係数信号
における第2の係数を量子化して量子化係数信号として
出力する係数量子化部と、音声信号と該音声信号のイン
パルス応答とを用いて該インパルス応答を計算して得ら
れる当該フレームの該音声信号に関する音源信号が零で
ない振幅のM個のパルス列から構成される該音源信号の
振幅又は極性及びパルスの位置を求めて量子化音源信号
として出力する音源計算部と、第1の係数信号及び量子
化係数信号をフィルタの係数として用いて量子化音源信
号をフィルタリングすることにより当該フレームの音声
再生を行って音声再生信号を出力する音声再生部とを有
する音声符号化装置が得られる。
【0013】加えて、本発明によれば、上記何れか一つ
の音声符号化装置において、音声再生部には、第1の係
数信号を濾波するフィルタとして非再帰型のものが用い
られた音声符号化装置が得られる。
【0014】
【発明の実施の形態】以下に幾つかの実施例を挙げ、本
発明の音声符号化装置について、図面を参照して詳細に
説明する。
【0015】図1は、本発明の実施例1に係る音声符号
化装置の基本構成を示したブロック図である。
【0016】この音声符号化装置では、入力端子100
から入力された音声信号x(n)がフレーム分割回路1
10に伝送され、フレーム分割回路110では音声信号
x(n)をフレーム(例えば10ms)毎に分割する。
サブフレーム分割回路120では、フレームの音声信号
をフレームよりも短かいサブフレーム(例えば5ms)
に分割する。
【0017】一方、第1の係数計算回路(第1の係数分
析部)380は、過去のフレームでの再生信号s(n−
L)を予め定められたサンプル数だけ用いて線形予測分
析によって予め定められた次数P1(例えばP1=20
次)の線形予測係数α1i(i=1,…,P1)として与
えられる第1の係数を計算し、その結果を示す第1の係
数信号を出力する。ここでの分析法には、周知のLPC
分析やBurg分析等を用いることができるが、ここで
はBurg分析を用いるものとする。Burg分析の詳
細については、中溝著による“信号解析とシステム同
定”と題される単行本(コロナ社1988年刊)の82
〜87頁(以下、文献4とする)等に記載されているた
め、説明は省略する。
【0018】残差信号計算回路(残差計算部)390
は、音声信号x(n)の予め定められたサンプル数に対
し、第1の係数信号の第1の係数α1iを用いて逆フィル
タリングを行い、下記の数1式で示される関係に基づく
予測残差信号e(n)を計算して出力する。
【0019】
【数1】 第2の係数計算回路(第2の係数分析部)200では、
予め定められたサンプル数の予測残差信号e(n)に対
し、線形予測分析を施して第2の係数α2j(i=1,
…,P2)をP2次だけ計算するが、ここでは第2の係
数α2j(j=1,…,P2)を量子化や補間に適したL
SPパラメータに変換して第2の係数信号として出力す
る。因みに、ここでの線形予測係数からLSPへの変換
は、菅村他による“線スペクトル対(LSP)音声分析
合成方式による音声情報圧縮”と題される論文(電子通
信学会論文誌、J64−A、pp.599−606、1
981年)(以下、文献5とする)に記載の技術を適用
することができる。
【0020】第2の係数量子化回路(係数量子化部)2
10では、第2の係数信号のLSPパラメータをコード
ブック220を用いて効率的に量子化し、下記の数2式
で示される歪みを最小化するコードベクトルDj を選択
し、そのコードベクトルDjのインデクスをマルチプレ
クサ400に出力し、量子化値である量子化係数信号を
出力する。
【0021】
【数2】 但し、ここでのLSP(i),QLSP(i)j ,W
(i)は、それぞれ量子化前のi次目のLSP,コード
ブック220に格納されたj番目のコードベクトル,重
み係数である。
【0022】以下では、量子化法としてベクトル量子化
を用いるものとし、第2の係数をLSPパラメータに変
換したものを量子化するものとする。LSPパラメータ
のベクトル量子化の手法は周知の手法を用いることがで
きる。具体的な方法としては、例えば特開平4−171
500号公報(特願平2−297600号)(以下、文
献6とする)、特開平4−363000号公報(特願平
3−261925号)(以下、文献7とする)、特開平
5−6199号公報(特願平3−155049号)(以
下、文献8とする)や、T.Nomura et a
l.,による“LSP Coding Using V
Q−SVQ With Interpolation
in 4.075 kbps M−LCELP Spe
ech Coder”と題される論文(Proc.Mo
bile MultimediaCommunicat
ios,pp.B.2.5,1993)(以下、文献9
とする)等を適用できるので、説明は省略する。
【0023】又、第2の係数量子化回路210では、量
子化したLSPパラメータに基づいて線形予測係数α′
2j(j=1,…,P2)に変換した量子化係数信号を後
述するインパルス応答計算回路310へ出力する。
【0024】聴感重み付け回路230は、フレーム分割
回路110から音声信号x(n)を受け取り、Burg
法を用いて予め定められた次数Pの線形予測係数βi
求める。これを用いて下記の数3式で示される伝達特性
H(z)を有するフィルタを構成し、サブフレーム分割
回路120の出力である音声信号x(n)に対し、聴感
重み付けを施して聴感重み付け音声信号xw (n)を出
力する。
【0025】
【数3】 但し、ここでγ1 ,γ2 は聴感重み付け量を制御する定
数であり、0<γ2 <γ1 ≦1.0として適性値を選定
する。尚、線形予測係数βi はインパルス応答計算回路
310へ出力される。
【0026】インパルス応答計算回路310は、z変換
が下記の数4式で示される聴感重み付けフィルタのイン
パルス応答hw (z)を予め定められた点数Lだけ計算
し、後述する適応コードブック回路300,音源量子化
回路350,及びゲイン量子化回路365へ出力する。
【0027】
【数4】 応答信号計算回路240は、第1の係数計算回路38
0、第2の係数計算回路200、第2の係数量子化回路
210の各々から係数を入力し、保存されているフィル
タメモリの値を用いて、入力信号を零d(n)=0とし
た応答信号を1サブフレーム分計算し、減算器235へ
出力する。ここで、応答信号xz (n)は下記の数5式
で示される。
【0028】
【数5】 減算器235は、x′w (n)=xw (n)−x
z (n)なる関係式により、聴感重み付け音声信号xw
(n)から応答信号xz (n)を1サブフレーム分減算
し、x′w (n)を適応コードブック回路300へ出力
する。
【0029】適応コードブック回路300では、後述す
る重み付け信号計算回路360から過去の音源信号v
(n)、減算器235から出力信号x′w (n)、イン
パルス応答計算回路310から聴感重み付けインパルス
応答hw (n)を入力し、ピッチ周期に対応する遅延T
を下記の数6式で表わされる歪みDT を最小化するコー
ドベクトルに従って求め、遅延Tを表わすインデクスを
マルチプレクサ400へ出力する。
【0030】
【数6】 但し、ここでyw (n−T)=v(n−T)*h
w (n)はピッチ予測信号を示し、記号*は畳み込み演
算を表わす。
【0031】ところで、ゲインηは下記の数7式に従っ
て求める。
【0032】
【数7】 ここで、女性音や子供の声に対し、遅延Tの抽出精度を
向上させるために、遅延Tを整数サンプルではなく、少
数サンプル値で求めても良い。具体的な方法としては、
例えばP.Kroon氏等による“Pitch pre
dictorswith high temporal
resolution”と題される論文(Proc.
ICASSP,pp.661−664,1990年)
(以下、文献10とする)等を適用することができる。
【0033】更に、適応コードブック回路300では、
選択された遅延T及びゲインηを用いてZw (n)=
x′w (n)−ηv(n−T)*hw (n)なる関係式
に従ってピッチ予測を行ったピッチ予測残差信号z
w (n)や選択された遅延Tを用いたピッチ予測信号を
音源量子化回路350へ出力する。
【0034】音源量子化回路(音源計算部)350は、
サブフレームに対して振幅が非零のM個のパルスを立
て、各パルスの位置の探索範囲を設定する。例えば5m
sサブフレーム(40サンプル)に5個のパルスを求め
る場合を想定すると、各パルスの探索範囲に含まれる位
置の候補は第1パルスでは0,5,…,35、第2パル
スでは1,6,…,36、第3パルスでは2,7,…,
37、第4パルスでは3,8,…,38、第5パルスで
は4,9,…,39とする場合を例示できる。
【0035】音源量子化回路350の細部構成は、図2
に示されるようになっている。そこで、第1の相関関数
計算回路353ではzw (n),hw (n)を入力して
第1の相関関数ψ(n)を下記の数8式に従って計算
し、第2の相関関数計算回路354ではhw (n)を入
力して第2の相関関数φ(p,q)を下記の数9式に従
って計算する。
【0036】
【数8】
【0037】
【数9】 パルス極性設定回路355では、各パルスの候補位置に
対して、第1の相関関数ψ(n)の極性を抽出して出力
する。パルス位置探索回路356は、上記した候補の位
置の組み合わせに対し、D=C2 k /Ek なる関係式を
計算し、これを最大化する位置を最適位置として選択す
る。
【0038】ここで、サブフレーム当たりのパルスの個
数をMとすると、Ck ,Eはそれぞれ下記の数10式,
数11式のように表わされる。
【0039】
【数10】
【0040】
【数11】 ここでsign(k)はk番目のパルスの極性を示し、
パルス極性設定回路355で予め抽出したものを使用す
る。このようにして、音源量子化回路350はM個のパ
ルスの極性及び位置がゲイン量子化回路365へ出力す
る。又、音源量子化回路350はパルスの位置を予め定
められたビット数で量子化した位置を表わすインデクス
やパルスの極性をマルチプレクサ400へ出力する。
【0041】ゲイン量子化回路365は、ゲインコード
ブック367からゲインコードベクトルを読み出して選
択された位置に対し、下記の数12式を最小化するゲイ
ンコードベクトルを選択し、最終的に歪みDt を最小化
する振幅コードベクトル及びゲインコードベクトルの組
合せを選択する。
【0042】
【数12】 ここでは適応コードブックのゲインη′とパルスで表わ
した音源のゲインG′とによる2種のゲインを同時にベ
クトル量子化する例について示しているが、ここでの
η′t ,G′t はゲインコードブック367に格納され
た2次元ゲインコードベクトルにおけるt番目の要素で
ある。ゲイン量子化回路365では、上式の計算をゲイ
ンコードベクトルの各々に対して繰り返し、歪みDt
最小化するゲインコードベクトルを選択し、選択された
ゲインコードベクトルを表わすインデクスをマルチプレ
クサ400へ出力する。
【0043】再生信号計算回路(音声再生部)370
は、1フレーム分の音声信号s(n)(n=0,…,N
−1,ここでNはフレームのサンプル数を表わす)を格
納することで音声再生を行って音声再生信号を出力す
る。このときのフィルタの伝達特性H′(z)は下記の
数13式のように示される。
【0044】
【数13】 但し、ここでの第1の係数α1iを用いるフィルタ、第2
の係数の量子化値α′2iを用いるフィルタは、何れも再
帰型構造となっている。
【0045】重み付け信号計算回路360は、それぞれ
のインデクスを入力し、インデクスからそれに対応する
コードベクトルを読み出し、先ず下記の数14式に基づ
いて駆動音源信号v(n)を求める。
【0046】
【数14】 ここでの駆動音源信号v(n)は上述した適応コードブ
ック回路300へ出力される。次に、重み付け信号計算
回路360は、第1の係数計算回路380からの出力パ
ラメータ,第2の係数計算回路200からの出力パラメ
ータ,及び第2の係数量子化回路210からの出力パラ
メータを用いて下記の数15式により応答信号s
w (n)をサブフレーム毎に計算し、応答信号計算回路
240へ出力する。
【0047】
【数15】 実施例1に係る音声符号化装置では、各部が以上に説明
したような動作で機能する。尚、上述した再生信号計算
回路370,重み付け信号計算回路360,及び応答信
号計算回路240には、何れも第1の係数信号を濾波す
るための再帰型フィルタが用いられている。
【0048】即ち、この音声符号化装置の場合、過去の
再生信号のスペクトル特性を表わす第1の係数と、この
第1の係数で当該フレームの音声信号を予測して得た予
測残差信号に対し、その予測残差信号のスペクトル特性
を表わす第2の係数を求め、この第2の係数を量子化し
て量子化係数信号として出力し、第1の係数信号,量子
化係数信号,及び音声信号から音源信号を出力してい
る。これにより、伝送するのは第2の係数信号のみであ
りながら、第1の係数の次数と第2の係数の次数とを合
計した次数の予測が行われるため、音声信号のスペクト
ルの近似精度が大幅に改善される。又、伝送路に誤りが
発生しても第2の係数は誤りに強いため、従来に比べて
音質の劣化が少なくなる。従って、この音声符号化装置
の場合、従来と同一のビットレートであっても、比較的
少ない演算量で一層高品質な圧縮復合音声を得ることが
可能となる。
【0049】図3は、本発明の実施例2に係る音声符号
化装置の基本構成を示した回路ブロック図である。
【0050】この音声符号化装置は先の実施例1の装置
と比べ、予測利得計算回路410及び判別回路420が
設けられており、これによって他部の一部のものの機能
が変更されているため、その該当箇所に関しては参照符
号を変えている。但し、同一要素に関しては参照符号を
同じにして説明を省略する。
【0051】この音声符号化装置において、予測利得計
算回路410は、音声信号及び残差信号計算回路390
からの予測残差信号から下記の数16式に示される関係
に従って予測利得Gp を計算し、その予測利得Gp を計
算した結果を示す予測利得信号を判別回路420へ出力
する。
【0052】
【数16】 従って、ここでの残差信号計算回路390及び予測利得
計算回路410は、合わせて音声信号から第1の係数信
号を用いて予測残差を求めて予測残差信号を出力すると
共に、予測残差信号に示される予測残差における予測利
得を計算した結果を示す予測利得信号を出力する残差計
算部とみなすことができる。
【0053】判別回路(判別部)420は、予測利得G
p を予め定められた閾値と比較し、閾値よりも予測利得
p が大きいか否かを判別し、大きい場合は“1”,小
さい場合は“0”の判別情報を示す判別信号を第2の係
数計算回路510,インパルス応答計算回路530,応
答計算回路540,重み付け信号計算回路550,再生
信号計算回路560,及びマルチプレクサ400へ出力
する。
【0054】第2の係数計算回路510は、判別信号を
入力し、その判別情報が“1”のときは予測残差信号か
ら第2の係数を計算して第2の係数信号として出力する
が、判別情報が“0”のときはフレーム分割回路110
から音声信号を入力して第2の係数を計算して第2の係
数信号として出力する。
【0055】インパルス応答計算回路530,応答信号
計算回路540,重み付け信号計算回路550,及び再
生信号計算回路560に関しては、判別信号を入力して
その判別情報に応じて第1の係数を用いるか否かを切替
え判定すると共に、その判別情報が“1”のときは第1
の係数計算回路380からの第1の係数信号,第2の係
数計算回路510からの第2の係数信号,及び第2の係
数量子化回路210からの量子化係数信号を使用する
が、判別情報が“0”のときは第1の係数計算回路38
0からの第1の係数信号を使用しない。
【0056】その他の各部は実施例1の装置の場合と同
様に機能する。実施例2に係る音声符号化装置では、各
部が以上に説明したような動作で機能する。尚、上述し
た再生信号計算回路560,重み付け信号計算回路55
0,及び応答信号計算回路540には、何れも第1の係
数信号を濾波するための再帰型フィルタが用いられてい
る。
【0057】即ち、この音声符号化装置の場合、第1の
係数による予測利得を計算し、予測利得が予め定められ
た閾値を越える場合にのみ第1の係数を第2の係数に併
用しているので、音声信号の特性の時間的な変化が大き
くなる。これにより、第1の係数による予測が逆に悪化
するような区間でも全体的な音質の劣化を防ぐことがで
きると共に、伝送路に誤りが発生しても送・受信側の再
生音声同士が異なる頻度が低減化され、全体として従来
よりも高品質な音声を得ることができる。
【0058】図4は、本発明の実施例3に係る音声符号
化装置の基本構成を示した回路ブロック図である。
【0059】この音声符号化装置は先の実施例1の装置
と比べ、モード判別回路500が設けられており、これ
によって他部の一部のものの機能が変更されているた
め、その該当箇所に関しては参照符号を変えている。但
し、ここでも同一要素に関しては参照符号を同じにして
説明を省略する。
【0060】この音声符号化装置において、モード判別
回路(モード判別部)500はフレーム分割回路110
からフレーム単位で音声信号を受取り、音声信号から特
徴量を抽出して複数のモードのうちの一つを選定したモ
ード判別情報を含むモード選定信号を第1の係数計算回
路520,第2の係数計算回路510,及びマルチプレ
クサ400へ出力する。
【0061】モード判別回路500では、モード判別に
現在のフレームの特徴量を用いるものとするが、この特
徴量としては例えばフレームで平均したピッチ予測ゲイ
ンを用いる。ピッチ予測ゲインの計算は例えば下記の数
17式に示される関係式を用いる。
【0062】
【数17】 ここで、Lはフレームに含まれるサブフレームの個数で
ある。Pi ,Ei はそれぞれ下記の数18式,数19式
の関係で示されるもので、i番目のサブフレームでの音
声パワー,ピッチ予測誤差パワーを示す。
【0063】
【数18】
【0064】
【数19】 但し、ここで、xi (n)はi番目のサブフレームの音
声信号である。Tは予測ゲインを最大化する最適遅延で
ある。モード判別回路500では、フレーム平均ピッチ
予測ゲインGを予め定められた複数の閾値と比較して複
数種類(例えばR種)のモードに分類する。モードの種
類数Rとしては例えば4を用いれば良い。この場合、モ
ードは無声部,過渡部,母音の弱い定常部,母音の強い
定常部等に対応させる場合を例示できる。
【0065】第1の係数計算回路520は、モード選定
信号を受けとり、そのモード判別情報が予め定められた
モードの場合にのみ過去の再生信号から第1の係数を計
算するが、それ以外のモードでは第1の係数を計算しな
い。
【0066】第2の係数計算回路510は、モード選定
信号を受けとり、そのモード判別情報が予め定められた
モードの場合にのみ予測残差信号計算回路390から出
力される予測残差信号から第2の係数を計算するが、そ
れ以外のモードではフレーム分割回路110から出力さ
れる音声信号から第2の係数を計算する。
【0067】その他の各部は実施例1の装置の場合と同
様に機能する。実施例3に係る音声符号化装置では、各
部が以上に説明したような動作で機能する。
【0068】即ち、この音声符号化装置の場合、音声信
号から特徴量を抽出して複数のモードのうちの一つを判
別し、予め定められたモード(例えば母音の定常部等の
ように音声信号の特性の時間的な変化が少ない)におい
ては第1の係数を求めた後で予測残差信号から第2の係
数を計算することにより、第1の係数及び第2の係数を
併用している。これにより、予測利得の判別を行わなく
ても、第1の係数により予測が逆に悪化することを防ぎ
ながら従来よりも良好な音質を得ることができると共
に、伝送路に誤りが発生しても送・受信側の再生音声同
士が異なる頻度が低減化されて従来よりも良好な音質を
得ることができる。
【0069】ところで、本発明の音声符号化装置は種々
の変形が可能である。例えば図5と図7とは、それぞれ
図1や図4に示す装置の再生信号計算回路370,重み
付け信号計算回路360,及び応答信号計算回路240
において、第1の係数信号を濾波するために用いた再帰
型フィルタを非再帰型フィルタに変更し、更に、図6は
図3に示す装置の再生信号計算回路560,重み付け信
号計算回路550,及び応答信号計算回路540におい
て、第1の係数信号を濾波するために用いた再帰型フィ
ルタを非再帰型フィルタに変更し、何れの場合もそれぞ
れ再生信号計算回路600,重み付け信号計算回路61
0,及び応答信号計算回路620とした場合を示したも
のである。
【0070】一例として、図5に示される再生信号計算
回路600における非再帰型フィルタの伝達特性Q
(z)は下記の数20式のように表わされる。
【0071】
【数20】 ここでは第1の係数α1iを用いるフィルタが非再帰型と
なっている。重み付け信号計算回路610や応答信号計
算回路620においても同様に第1の係数α1iを用いる
ため、同一な構成の非再帰型フィルタが用いられてい
る。
【0072】即ち、このような音声符号化装置の場合、
信号再生部において第1の係数を用いるフィルタ構造と
して、非再帰型のものが用いられているため、伝送路の
誤りに対して頑健性が高められる。
【0073】尚、上述した各実施例の音声符号化装置に
おける音源量子化回路350では、パルスの振幅を瞬時
極性で表わしたが、予め複数パルスの振幅をまとめて振
幅コードブックに格納しておき、このコードブックから
最適な振幅コードベクトルを選択するようにしても良
く、又振幅コードブックの代わりにパルスの数に等しい
ビット数だけ各パルスの極性の組み合わせを用意した極
性コードブックを有するようにしても良い。
【0074】
【発明の効果】以上に説明したように、本発明の音声符
号化装置によれば、過去の再生信号のスペクトル特性を
表わす第1の係数と、この第1の係数で当該フレームの
音声信号を予測して得た予測残差信号に対し、その予測
残差信号のスペクトル特性を表わす第2の係数を求め、
この第2の係数を量子化して量子化係数信号として出力
し、第1の係数信号,量子化係数信号,及び音声信号か
ら音源信号を出力させる構成とすることによって、第2
の係数信号のみを伝送しながら第1の係数の次数と第2
の係数の次数とを合計した次数の予測が行われて音声信
号のスペクトルの近似精度を大幅に改善できるようにし
たり、或いは第1の係数による予測利得を計算し、予測
利得が予め定められた閾値を越える場合にのみ第1の係
数を第2の係数に併用する構成とすることによって、音
声信号の特性の時間的な変化を大きくして第1の係数に
よる予測が逆に悪化するような区間でも全体的な音質の
劣化を防いで伝送路に誤りが発生しても送・受信側の再
生音声同士が異なる頻度が低減化されるようにしたり、
更には音声信号から特徴量を抽出して複数のモードのう
ちの一つを判別し、予め定められたモードにおいて第1
の係数を求めた後で予測残差信号から第2の係数を計算
することで第1の係数及び第2の係数を併用する構成と
することによって、予測利得の判別を行わなくても第1
の係数により予測が逆に悪化することを防いで伝送路に
誤りが発生しても送・受信側の再生音声同士が異なる頻
度が低減化されるようにしたり、これに加え、音声再生
部の再帰型フィルタを非再帰型フィルタに変更して伝送
路の誤りに対して頑健性が高められるようにしているの
で、結果として、比較的少ない演算量で一層音質が改善
されるようになる。
【図面の簡単な説明】
【図1】本発明の実施例1に係る音声符号化装置の基本
構成を示した回路ブロック図である。
【図2】図1に示す音声符号化装置に備えられる音源量
子化回路の細部構成を示した回路ブロック図である。
【図3】本発明の実施例2に係る音声符号化装置の基本
構成を示した回路ブロック図である。
【図4】本発明の実施例3に係る音声符号化装置の基本
構成を示した回路ブロック図である。
【図5】図1に示す音声符号化装置に備えられる局部に
おいて第1の係数信号を濾波するために用いた再帰型フ
ィルタを非再帰型フィルタに変更した構成を示したもの
である。
【図6】図3に示す音声符号化装置に備えられる局部に
おいて第1の係数信号を濾波するために用いた再帰型フ
ィルタを非再帰型フィルタに変更した構成を示したもの
である。
【図7】図4に示す音声符号化装置に備えられる局部に
おいて第1の係数信号を濾波するために用いた再帰型フ
ィルタを非再帰型フィルタに変更した構成を示したもの
である。
【符号の説明】
110 フレーム分割回路 120 サブフレーム分割回路 200,510 第2の係数計算回路 210 第2の係数量子化回路 220 コードブック 230 聴感重み付け回路 235 減算回路 240,540,620 応答信号計算回路 310,530 インパルス応答計算回路 350 音源量子化回路 353 第1の相関関数計算回路 354 第2の相関関数計算回路 355 パルス極性設定回路 356 パルス位置探索回路 360,550,610 重み付け信号計算回路 365 ゲイン量子化回路 370,560,600 再生信号計算回路 380 第1の係数計算回路 390 残差信号計算回路 400 マルチプレクサ 410 予測利得計算回路 420 判別回路 500 モード判別回路
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 H03M 7/30 H04B 14/04

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力した音声信号を予め定められた時間
    長のフレームに分割し、過去の再生信号のスペクトル特
    性を表わす第1の係数を該再生信号から求めて第1の係
    数信号として出力する第1の係数分析部と、前記第1の
    係数信号を用いて前記音声信号から予測残差を求めて予
    測残差信号として出力する残差計算部と、前記予測残差
    信号のスペクトル特性を表わす第2の係数を該予測残差
    信号から求めて第2の係数信号として出力する第2の係
    数分析部と、前記第2の係数信号における前記第2の係
    数を量子化して量子化係数信号として出力する係数量子
    化部と、前記音声信号と該音声信号のインパルス応答と
    を用いて該インパルス応答を計算して得られる当該フレ
    ームの該音声信号に関する音源信号が零でない振幅のM
    個のパルス列から構成される該音源信号の振幅又は極性
    及びパルスの位置を求めて量子化音源信号として出力す
    る音源計算部と、前記第1の係数信号及び前記量子化係
    数信号をフィルタの係数として用いて前記量子化音源信
    号をフィルタリングすることにより当該フレームの音声
    再生を行って音声再生信号を出力する音声再生部とを有
    することを特徴とする音声符号化装置。
  2. 【請求項2】 入力した音声信号を予め定められた時間
    長のフレームに分割し、過去の再生信号のスペクトル特
    性を表わす第1の係数を該再生信号から求めて第1の係
    数信号として出力する第1の係数分析部と、前記音声信
    号から前記第1の係数信号を用いて予測残差を求めて予
    測残差信号を出力すると共に、該予測残差信号に示され
    る該予測残差における予測利得を計算した結果を示す予
    測利得信号を出力する残差計算部と、前記予測利得信号
    に示される前記予測利得が予め定められた閾値を越える
    か否かを判別した結果を示す判別信号を出力する判別部
    と、前記判別信号が予め定められた所定値を示すときに
    は前記予測残差信号のスペクトル特性を表わす第2の係
    数を該予測残差信号から求めて第2の係数信号として出
    力すると共に、該所定値以外のときには前記音声信号か
    ら該音声信号のスペクトル特性を表わす第2の係数を求
    めて第2の係数信号として出力する第2の係数分析部
    と、前記第2の係数信号における前記第2の係数を量子
    化して量子化係数信号として出力する係数量子化部と、
    前記判別信号に基づいて前記第1の係数信号における前
    記第1の係数を用いるか否かを切替え判定すると共に、
    前記音声信号と該音声信号のインパルス応答とを用いて
    該インパルス応答を計算して得られる当該フレームの該
    音声信号に関する音源信号が零でない振幅のM個のパル
    ス列から構成される該音源信号の振幅又は極性及びパル
    スの位置を求めて量子化音源信号として出力する音源計
    算部と、前記判別信号に基づいて前記第1の係数信号に
    おける前記第1の係数を用いるかを切替え判定すると共
    に、前記第2の係数信号及び前記量子化係数信号をフィ
    ルタの係数として用いて前記量子化音源信号をフィルタ
    リングすることにより当該フレームの音声再生を行って
    音声再生信号を出力する音声再生部とを有することを特
    徴とする音声符号化装置。
  3. 【請求項3】 入力した音声信号を予め定められた時間
    長のフレームに分割し、前記音声信号から特徴量を抽出
    して複数のモードのうちの一つを選定してモード選定信
    号を出力するモード判別部と、前記モード選定信号にお
    ける予め定められたモードに関しては過去の再生信号の
    スペクトル特性を表わす第1の係数を該再生信号から求
    めて第1の係数信号として出力する第1の係数分析部
    と、前記第1の係数信号を用いて前記音声信号から前記
    フレーム毎に予測残差を求めて予測残差信号として出力
    する残差計算部と、前記予測残差信号のスペクトル特性
    を表わす第2の係数を該予測残差信号から求めて第2の
    係数信号として出力する第2の係数分析部と、前記第2
    の係数信号における前記第2の係数を量子化して量子化
    係数信号として出力する係数量子化部と、前記音声信号
    と該音声信号のインパルス応答とを用いて該インパルス
    応答を計算して得られる当該フレームの該音声信号に関
    する音源信号が零でない振幅のM個のパルス列から構成
    される該音源信号の振幅又は極性及びパルスの位置を求
    めて量子化音源信号として出力する音源計算部と、前記
    第1の係数信号及び前記量子化係数信号をフィルタの係
    数として用いて前記量子化音源信号をフィルタリングす
    ることにより当該フレームの音声再生を行って音声再生
    信号を出力する音声再生部とを有することを特徴とする
    音声符号化装置。
  4. 【請求項4】 請求項1〜3の何れか一つに記載の音声
    符号化装置において、前記音声再生部には、前記第1の
    係数信号を濾波するフィルタとして非再帰型のものが用
    いられたことを特徴とする音声符号化装置。
JP33864796A 1996-12-18 1996-12-18 音声符号化装置 Expired - Fee Related JP3266178B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP33864796A JP3266178B2 (ja) 1996-12-18 1996-12-18 音声符号化装置
US08/991,320 US6009388A (en) 1996-12-18 1997-12-16 High quality speech code and coding method
EP97122289A EP0849724A3 (en) 1996-12-18 1997-12-17 High quality speech coder and coding method
CA002225102A CA2225102C (en) 1996-12-18 1997-12-18 High quality speech coder and coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33864796A JP3266178B2 (ja) 1996-12-18 1996-12-18 音声符号化装置

Publications (2)

Publication Number Publication Date
JPH10177398A JPH10177398A (ja) 1998-06-30
JP3266178B2 true JP3266178B2 (ja) 2002-03-18

Family

ID=18320148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33864796A Expired - Fee Related JP3266178B2 (ja) 1996-12-18 1996-12-18 音声符号化装置

Country Status (4)

Country Link
US (1) US6009388A (ja)
EP (1) EP0849724A3 (ja)
JP (1) JP3266178B2 (ja)
CA (1) CA2225102C (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3998330B2 (ja) * 1998-06-08 2007-10-24 沖電気工業株式会社 符号化装置
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
JP4856559B2 (ja) * 2007-01-30 2012-01-18 株式会社リコー 受信音声再生装置
US8306813B2 (en) * 2007-03-02 2012-11-06 Panasonic Corporation Encoding device and encoding method
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466670B (en) 2009-01-06 2012-11-14 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
GB2466669B (en) 2009-01-06 2013-03-06 Skype Speech coding
EP2246845A1 (en) * 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing device for estimating linear predictive coding coefficients
US8452606B2 (en) 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JP3114197B2 (ja) * 1990-11-02 2000-12-04 日本電気株式会社 音声パラメータ符号化方法
JP3151874B2 (ja) * 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
JP3275247B2 (ja) * 1991-05-22 2002-04-15 日本電信電話株式会社 音声符号化・復号化方法
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
JPH06250697A (ja) * 1993-02-26 1994-09-09 Fujitsu Ltd 音声符号化方法及び音声符号化装置並びに音声復号化方法及び音声復号化装置
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset

Also Published As

Publication number Publication date
CA2225102A1 (en) 1998-06-18
JPH10177398A (ja) 1998-06-30
US6009388A (en) 1999-12-28
EP0849724A2 (en) 1998-06-24
CA2225102C (en) 2002-05-28
EP0849724A3 (en) 1999-03-03

Similar Documents

Publication Publication Date Title
JP3094908B2 (ja) 音声符号化装置
JP3196595B2 (ja) 音声符号化装置
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JP3266178B2 (ja) 音声符号化装置
JPH09152896A (ja) 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
EP1005022A1 (en) Speech encoding method and speech encoding system
JP3335841B2 (ja) 信号符号化装置
JP3360545B2 (ja) 音声符号化装置
JP3003531B2 (ja) 音声符号化装置
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3153075B2 (ja) 音声符号化装置
JP3299099B2 (ja) 音声符号化装置
JP3144284B2 (ja) 音声符号化装置
JP2001318698A (ja) 音声符号化装置及び音声復号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP3089967B2 (ja) 音声符号化装置
JP3047761B2 (ja) 音声符号化装置
JP3192051B2 (ja) 音声符号化装置
JP3092654B2 (ja) 信号符号化装置
JP3471542B2 (ja) 音声符号化装置
JPH08320700A (ja) 音声符号化装置
JP2907019B2 (ja) 音声符号化装置
JP3144244B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080111

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100111

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees