JPH0786952A - 音声の予測符号化方法 - Google Patents

音声の予測符号化方法

Info

Publication number
JPH0786952A
JPH0786952A JP5227577A JP22757793A JPH0786952A JP H0786952 A JPH0786952 A JP H0786952A JP 5227577 A JP5227577 A JP 5227577A JP 22757793 A JP22757793 A JP 22757793A JP H0786952 A JPH0786952 A JP H0786952A
Authority
JP
Japan
Prior art keywords
vector
speech
coefficient
noise
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5227577A
Other languages
English (en)
Inventor
Akitoshi Kataoka
章俊 片岡
Takehiro Moriya
健弘 守谷
Shinji Hayashi
伸二 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5227577A priority Critical patent/JPH0786952A/ja
Publication of JPH0786952A publication Critical patent/JPH0786952A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 異なる周波数特性を有する音声を符号化して
伝送した場合でも、伝送先で良い品質の復号音声を得
る。 【構成】 予測係数決定部2,予測係数量子化部4は、
合成フィルタ3に予測係数を設定する。適応符号帳5,
雑音符号帳7からピッチ周期ベクトル,雑音波形ベクト
ルが出力され、利得部6,8においてそれぞれ利得が乗
算される。利得部6,8の出力は加算された後、合成フ
ィルタ3に供給され、合成音声ベクトルが合成される。
パワーが量子化された入力音声ベクトルから合成音声ベ
クトルが減算されて得られた歪は、その重み付けの度合
いが入力音声ベクトルの周波数特性に基づいて適応的に
制御された聴覚重み付けがなされた後、パワーが計算さ
れ、このパワーが最小になるように、適応符号帳5,雑
音符号帳7からピッチ周期ベクトル,雑音波形ベクトル
が選択され、利得部6,8の利得が設定される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自動車電話等のディジ
タル移動通信などに用いられ、音声を高能率に符号化す
る音声の予測符号化方法に関する。
【0002】
【従来の技術】近年、ディジタル移動通信などの技術分
野においては、電波を有効利用するなどの目的で、種々
の高能率符号化方法が用いられている。これらの高能率
符号化方法のうち、8kbit/s程度の符号化速度で
音声を符号化する高能率符号化方法としては、符号駆動
型線形予測(CELP)符号化方法やベクトル加算駆動
型線形予測(VSELP)符号化方法、あるいはマルチ
パス符号化方法等がある。
【0003】なお、CELP符号化方法の詳細について
は、たとえば、M.R.SchroederとB.S.Atalとが著した"Co
de-Excited Linear Prediction(CELP) : High-quality
Speech at Very Low Rates" (Proc. ICASSP '85, 25.1.
1, pp. 937-940, 1985を、VSELP符号化方法の詳細
については、たとえば、I.A.GersonとM.A.Jasiukとが著
した"Vector Sum Excited Linear Prediction (VSELP)
Speech Coding at 8kps" (Proc. ICASSP '90, S9.3, p
p. 461-464, 1990)を、マルチパス符号化方法の詳細に
ついては、たとえば、小澤一範と荒関卓とが著した”ピ
ッチ情報を用いた9.6−4.8kbit/sマルチパ
ス音声符号化方式”(信学誌(D−II),J72−D−
II,8,pp.1125−1132,1989)をそれ
ぞれ参照されたい。
【0004】図1は、従来のCELP符号化方法を用い
た音声の符号化装置の構成例を表すブロック図である。
アナログの音声信号がサンプリング周波数8kHzでサ
ンプリングされて生成された入力音声データが入力端子
1から入力される。予測係数決定部2において、入力端
子1から入力された入力音声データの複数のサンプルが
1フレームとして1つのベクトルにまとめられ(以下、
入力音声ベクトルという)、この入力音声ベクトルにつ
いて線形予測分析がなされ、伝達関数{1/A(z)}
を有する合成フィルタ3の予測係数(線形予測符号化
(LPC)係数、または線スペクトル対(LSP)係
数)が計算され、決定される。これにより、予測係数量
子化部4において、予測係数が量子化され、合成フィル
タ3に設定される。
【0005】適応符号帳5は、音声の有声区間のピッチ
周期に対応した複数のピッチ周期ベクトルが記憶される
ように構成されている。この適応符号帳5から、後述す
る歪パワー計算部12によって選択され、取り出された
ピッチ周期ベクトルに、利得部6において、同じく歪パ
ワー計算部12によって設定された利得が乗算され、利
得部6から出力される。
【0006】いっぽう、雑音符号帳7には、音声の無声
区間に対応した複数の雑音波形ベクトル(たとえば、乱
数ベクトル)があらかじめ記憶されている。この雑音符
号帳7から、後述する歪パワー計算部12によって選択
され、取り出された雑音波形ベクトルに、利得部8にお
いて、歪パワー計算部12によって設定された利得が乗
算され、利得部8から出力される。そして、利得部6の
出力ベクトルと、利得部8の出力ベクトルとが加算器9
において加算され、加算器9の出力ベクトルが合成フィ
ルタ3に駆動ベクトルとして供給され、合成フィルタ3
において、設定された予測係数に基づいて音声ベクトル
(以下、合成音声ベクトルという)が合成される。
【0007】また、パワー量子化部10において、入力
音声ベクトルのパワーが計算された後、そのパワーが量
子化され、これにより、量子化された入力音声ベクトル
のパワーが用いられて入力音声ベクトルとピッチ周期ベ
クトルとが正規化される。そして、減算器11におい
て、正規化され、パワー量子化部10から出力された入
力音声ベクトルから合成音声ベクトルが減算されて、歪
データが求められる。
【0008】次に、歪パワー計算部12は、歪データの
パワーを計算し、この歪データのパワーが最も小さくな
るように、適応符号帳5および雑音符号帳7それぞれか
らピッチ周期ベクトルおよび雑音波形ベクトルをそれぞ
れ選択するとともに、利得部6および8のそれぞれの利
得を設定する。これにより、符号出力部13において、
予測係数、入力音声ベクトルのパワー、ピッチ周期ベク
トルおよび雑音波形ベクトルそれぞれに対して選択され
た情報(コード)と利得などとがビット系列の符号に変
換されて出力され、これらの符号が伝送される。
【0009】ところで、歪パワー計算部12において、
合成音声ベクトルと入力音声ベクトルとの差である歪デ
ータを評価する際、歪データが最小になること、すなわ
ち、SNが最大になることだけで評価すると、量子化雑
音が周波数軸上で一様に分布することになる。また、音
声信号は、低域に多くのパワーを有するが、周波数の増
加に従ってパワーは減少する。そのため、量子化雑音が
周波数軸上で一様に分布していると、高域において量子
化雑音レベルが音声レベルより相対的に高く、このこと
が符号化音声を劣化させる原因となる。
【0010】そこで、従来では、図2に示すように、歪
パワー計算部12において、聴覚重み付けフィルタ14
を用いて歪データを入力音声ベクトルのスペクトルに基
づいて重み付けを行った後、パワー計算部15において
評価する。つまり、音声パワーの大きい低域では、一様
分布の時より多少量子化雑音レベルが大きくなっても音
声によってマスキングされるため、量子化雑音は聞こえ
ない。逆に、高域では、一様分布より低くなるように重
み付けを行う。図2において、eは減算器11から出力
された歪データ、e’は重み付きの歪データである。
【0011】聴覚重み付けフィルタ14の伝達関数W
(z)は、(1)式によって表される。
【数1】 ここで、
【数2】
【数3】 (1)〜(3)式において、係数αiは、予測係数決定
部2において得られた量子化されていないLPC係数で
ある。また、係数γ1およびγ2には、0<γ2<γ1<1
の値が用いられる。また、係数γ1およびγ2によって聴
覚重み付けフィルタ14の特性が左右されるため、これ
らの係数γ1およびγ2の値は、試聴によって経験的に決
定される。
【0012】
【発明が解決しようとする課題】ところで、電話機の音
声には、従来から、国際電信電話諮問委員会(CCIT
T)において標準化されているIRS特性を有する音声
が用いられてきた。しかしながら、最近では、小型のエ
レクトレット・マイクロホンの普及に伴って、IRS特
性とは異なる周波数特性(以下、NON−IRS特性と
いう)を有する音声も用いられるようになってきてい
る。そして、このような異なる周波数特性を有する音声
を符号化する場合、上述した聴覚重み付けフィルタ14
の係数γ1およびγ2の最適値も当然異なる。
【0013】しかしながら、上述した従来の音声の予測
符号化方法においては、既に説明したように、聴覚重み
付けフィルタ14の係数γ1およびγ2の値は、入力音声
の周波数特性に関係なく、入力音声に応じて試聴を行っ
て経験的に一定の値に固定されていた。したがって、上
記聴覚重み付けフィルタ14の係数γ1およびγ2の値に
適合しない周波数特性を有する音声を符号化して伝送し
た場合には、伝送先で良い品質の復号音声を得ることが
できないという問題があった。本発明は、このような背
景の下になされたもので、異なる周波数特性を有する音
声を符号化して伝送した場合でも、伝送先で良い品質の
復号音声を得ることができる音声の予測符号化方法を提
供することを目的とする。
【0014】
【課題を解決するための手段】請求項1記載の発明は、
入力音声を線形予測分析して予測係数を算出し、該予測
係数を合成フィルタに設定し、該合成フィルタを、複数
のピッチ周期ベクトルが記憶された適応符号帳と、複数
の雑音波形ベクトルが記憶された雑音符号帳とからそれ
ぞれ選択されたピッチ周期ベクトルおよび雑音波形ベク
トルによって、前記入力音声の複数サンプルからなるフ
レーム単位に駆動して合成音声を合成することを利用し
て音声を符号化する音声の予測符号化方法において、前
記合成音声と前記入力音声との歪が最小となるように前
記適応符号帳および前記雑音符号帳から前記ピッチ周期
ベクトルおよび前記雑音波形ベクトルを選択するために
前記歪に聴覚的な重み付けを行う際に、その重み付けの
度合いを前記入力音声の周波数特性に基づいて適応的に
制御することを特徴としている。請求項2記載の発明
は、請求項1記載の発明において、前記重み付けの度合
いを、パーコール係数を用いて適応的に制御することを
特徴としている。
【0015】
【作用】本発明によれば、合成音声と入力音声との歪に
施される聴覚的な重み付けの度合いが入力音声の周波数
特性に基づいて適応的に制御されるので、異なる周波数
特性を有する音声を符号化して伝送した場合でも、伝送
先で良い品質の復号音声が得られる。
【0016】
【実施例】以下、図面を参照して、本発明の実施例につ
いて説明する。本発明においては、音声の符号化装置の
構成は、図1および図2とほぼ同様であるが、歪パワー
計算部12を構成する聴覚重み付けフィルタ14の係数
γ2の値が、以下に示す第1〜第3の実施例によってそ
れぞれ適応的に制御される。
【0017】(1)第1の実施例(フレーム内処理) 聴覚重み付けフィルタ14の係数γ1およびγ2の値を決
定する際の試聴の結果、IRS特性を有する音声におい
ては、係数γ1およびγ2の値は、γ1=0.9、γ2
0.6が好ましい。いっぽう、NON−IRS特性を有
する音声においては、γ1=0.9、γ2=0.4が好ま
しい。そこで、IRS特性およびNON−IRS特性の
両特性に最適となるように、入力音声に応じて係数γ2
の値を制御すればよい。つまり、入力音声がIRS特性
を有する場合には、γ2=0.6と設定し、入力音声が
NON−IRS特性を有する場合には、γ2=0.4と
設定すればよい。
【0018】また、IRS特性を有する音声およびNO
N−IRS特性を有する音声を分析した結果、両者に
は、PARCOR係数(パーコール係数)の1次の係数
1の出現確率の分布に大きな違いがあることがわかっ
た。すなわち、このPARCOR係数k1は、必ず−1
<k1<1の範囲に存在するが、NON−IRS特性を
有する音声を分析して得られたPARCOR係数k
1は、値+1付近に集中する傾向があり、いっぽう、I
RS特性を有する音声を分析して得られたPARCOR
係数k1には、そのような傾向がない。
【0019】ここで、図3に実際の音声データを処理し
て得られるPARCOR係数k1の値をその出現確率の
分布別に統計を取った時の値+1付近の、IRS特性を
有する音声を分析して得られたPARCOR係数k1
出現確率の分布(曲線a)、およびNON−IRS特性
を有する音声を分析して得られたPARCOR係数k1
の出現確率の分布(曲線b)を示す。図3からわかるよ
うに、NON−IRS特性を有する音声は、PARCO
R係数k1>0.9において多く存在するが、IRS特
性を有する音声は、PARCOR係数k1>0.9の出
現が減少している。
【0020】したがって、このPARCOR係数k1
相違の特徴を用いて、聴覚重み付けフィルタ14の係数
γ2の値を、入力音声によって適応的に制御する。つま
り、入力音声を分析して得られたPARCOR係数k1
の値がしきい値Th(たとえば、tH=0.9)以上で
ある場合には、聴覚重み付けフィルタ14の係数γ
値を0.4に設定し、係数kの値がしきい値Thより
小さい場合には、係数γ2の値を0.6に設定する。な
お、PARCOR係数k1は、予測係数決定部2におい
て線形予測分析を行う時に求めることができる。また、
従来の技術において既に説明したように、音声の符号化
はフレーム単位で行われるため、この実施例において
は、聴覚重み付けフィルタ14の係数γ2の適応的制御
もフレーム単位で行われる。
【0021】(2)第2の実施例(フレーム間処理) 図1に示す予測係数決定部2においては、入力音声デー
タについてフレーム単位で線形予測分析がなされ、合成
フィルタ3の予測係数が計算されるが、入力音声データ
の子音部や無声区間などでは、このフレーム単位での線
形予測分析が必ずしも有効ではない。そのため、NON
−IRS特性を有する音声においても、フレーム単位で
は、PARCOR係数k1の値が値+1付近に集中する
とは限らない。また、聴覚重み付けフィルタ14の係数
γ2の値がフレーム単位で大きく変化した場合、復号音
声の連続性が失われて望ましくない。
【0022】そこで、この実施例においては、係数γ2
の値を(4)式で表されるように、現在処理しようとし
ているフレーム(現フレーム)の入力音声データの係数
γ2と、過去に処理されたM個のフレームのそれぞれの
入力音声データの係数γ2の和によって表現する。
【数4】 (4)式において、nはフレーム番号(現フレームのフ
レーム番号はn)、γ2(n)はフレーム番号nのフレ
ームの入力音声データを分析して得られたPARCOR
係数k1によって決まる係数γ2、Mは次数(たとえば、
M=3)、Wiは重み係数である。このように、係数γ2
を和の形で表現することにより、フレーム単位での係数
γ2の急激な変化が避けられるので、復号音声の連続性
が失われることはない。
【0023】(3)第3の実施例 ところで、実際の使用状況において、音声の符号化装置
に入力される入力音声データがIRS特性を有するか、
あるいはNON−IRS特性を有するか不明である。し
かしながら、たとえば、使用する電話機によって音声の
周波数特性が決まってくるので、電話機の機種が決定さ
れれば、入力音声データがIRS特性を有するか、ある
いはNON−IRS特性を有するかが決まり、以後、両
特性が逆転することはあまり考えられない。
【0024】そこで、この実施例においては、図3に示
すPARCOR係数k1のの出現確率の分布に基づい
て、聴覚重み付けフィルタ14の係数γ2の値を(5)
式に表すように適応的に制御する。
【数5】 (5)式において、γ2min=0.4、γ2max=0.6、
α1=0.05、α2=0.01、β=0.001、a1
=0.97、a2=0.95、a3=0.90、初期値γ
2(0)=0.6とする。また、(5)式において、n
はフレーム番号である。
【0025】入力音声データがIRS特性を有する場合
には、係数γ2は、a1=0.97以上の値が出現する確
率はゼロであり、a2=0.95以上の値が出現する確
率も非常に少ない。そのため、係数γ2(n)はほとん
ど変化しない。つまり、入力音声データがIRS特性を
有する場合には、係数γ2(n)が0.6に保たれる。
いっぽう、入力音声データがNON−IRS特性を有す
る場合には、係数γ2は、a2=0.95以上の値が出現
する確率が非常に高く、α1=0.05ならば、4フレ
ーム後には、γ2(n)=0.4となる。そして、音声
区間によって係数γ2の値が0.9以下である場合で
も、増加がβ=0.001と小さいので、急激に変化し
ない。また、係数γ2の値が0.05を越えるフレーム
があれば、係数γ2(n)は0.4に収束する。以上、
本発明の実施例を図面を参照して詳述してきたが、具体
的な構成はこれらの実施例に限られるものではなく、本
発明の要旨を逸脱しない範囲の設計の変更等があっても
本発明に含まれる。
【0026】
【発明の効果】以上説明したように、本発明によれば、
聴覚重み付けフィルタの係数を入力音声の周波数特性に
応じて適応的に制御することができるので、異なる周波
数特性を有する音声を符号化して伝送した場合でも、伝
送先で良い品質の復号音声を得ることができるという効
果がある。
【図面の簡単な説明】
【図1】本発明の第1〜第3の実施例および従来例によ
る音声の予測符号化方法を適用した音声の符号化装置の
構成を表すブロック図である。
【図2】歪パワー計算部12の構成の一例を示すブロッ
ク図である。
【図3】入力音声の周波数特性の違いによるPARCO
R係数k1の出現確率の分布の一例を示す図である。
【符号の説明】
1 入力端子 2 予測係数決定部 3 合成フィルタ 4 予測係数量子化部 5 適応符号帳 6,8 利得部 7 雑音符号帳 9 加算器 10 パワー量子化部 11 減算器 12 歪パワー計算部 13 符号出力部 14 聴覚重み付けフィルタ 15 パワー計算部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を線形予測分析して予測係数を
    算出し、該予測係数を合成フィルタに設定し、該合成フ
    ィルタを、複数のピッチ周期ベクトルが記憶された適応
    符号帳と、複数の雑音波形ベクトルが記憶された雑音符
    号帳とからそれぞれ選択されたピッチ周期ベクトルおよ
    び雑音波形ベクトルによって、前記入力音声の複数サン
    プルからなるフレーム単位に駆動して合成音声を合成す
    ることを利用して音声を符号化する音声の予測符号化方
    法において、 前記合成音声と前記入力音声との歪が最小となるように
    前記適応符号帳および前記雑音符号帳から前記ピッチ周
    期ベクトルおよび前記雑音波形ベクトルを選択するため
    に前記歪に聴覚的な重み付けを行う際に、その重み付け
    の度合いを前記入力音声の周波数特性に基づいて適応的
    に制御することを特徴とする音声の予測符号化方法。
  2. 【請求項2】 前記重み付けの度合いを、パーコール係
    数を用いて適応的に制御することを特徴とする請求項1
    記載の音声の予測符号化方法。
JP5227577A 1993-09-13 1993-09-13 音声の予測符号化方法 Pending JPH0786952A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5227577A JPH0786952A (ja) 1993-09-13 1993-09-13 音声の予測符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5227577A JPH0786952A (ja) 1993-09-13 1993-09-13 音声の予測符号化方法

Publications (1)

Publication Number Publication Date
JPH0786952A true JPH0786952A (ja) 1995-03-31

Family

ID=16863101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5227577A Pending JPH0786952A (ja) 1993-09-13 1993-09-13 音声の予測符号化方法

Country Status (1)

Country Link
JP (1) JPH0786952A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08292797A (ja) * 1995-04-20 1996-11-05 Nec Corp 音声符号化装置
KR100501919B1 (ko) * 2002-09-06 2005-07-18 주식회사 보이스웨어 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법
WO2008032828A1 (fr) * 2006-09-15 2008-03-20 Panasonic Corporation Dispositif de codage audio et procédé de codage audio
JP2010066335A (ja) * 2008-09-09 2010-03-25 Nippon Telegr & Teleph Corp <Ntt> 信号広帯域化装置、信号広帯域化方法、そのプログラム、その記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08292797A (ja) * 1995-04-20 1996-11-05 Nec Corp 音声符号化装置
US6006177A (en) * 1995-04-20 1999-12-21 Nec Corporation Apparatus for transmitting synthesized speech with high quality at a low bit rate
KR100501919B1 (ko) * 2002-09-06 2005-07-18 주식회사 보이스웨어 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법
WO2008032828A1 (fr) * 2006-09-15 2008-03-20 Panasonic Corporation Dispositif de codage audio et procédé de codage audio
US8239191B2 (en) 2006-09-15 2012-08-07 Panasonic Corporation Speech encoding apparatus and speech encoding method
JP2010066335A (ja) * 2008-09-09 2010-03-25 Nippon Telegr & Teleph Corp <Ntt> 信号広帯域化装置、信号広帯域化方法、そのプログラム、その記録媒体

Similar Documents

Publication Publication Date Title
RU2257556C2 (ru) Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6694293B2 (en) Speech coding system with a music classifier
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
JPH02155313A (ja) 符号化方法
JP3357795B2 (ja) 音声符号化方法および装置
EP1096476B1 (en) Speech signal decoding
JP3628268B2 (ja) 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
EP0856185B1 (en) Repetitive sound compression system
JPH09152896A (ja) 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
JP2645465B2 (ja) 低遅延低ビツトレート音声コーダ
JPH0944195A (ja) 音声符号化装置
US20090018823A1 (en) Speech coding
JPH0786952A (ja) 音声の予測符号化方法
JP3088163B2 (ja) Lsp係数の量子化方法
JP3050978B2 (ja) 音声符号化方法
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
JP3878254B2 (ja) 音声圧縮符号化方法および音声圧縮符号化装置
JP3496618B2 (ja) 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法
JP3232701B2 (ja) 音声符号化方法
JP3153075B2 (ja) 音声符号化装置
JP2968109B2 (ja) コード励振線形予測符号化器及び復号化器
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP3192051B2 (ja) 音声符号化装置
JP2002169595A (ja) 固定音源符号帳及び音声符号化/復号化装置