JPH01155400A - 音声符号化方式 - Google Patents
音声符号化方式Info
- Publication number
- JPH01155400A JPH01155400A JP62315621A JP31562187A JPH01155400A JP H01155400 A JPH01155400 A JP H01155400A JP 62315621 A JP62315621 A JP 62315621A JP 31562187 A JP31562187 A JP 31562187A JP H01155400 A JPH01155400 A JP H01155400A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- sound source
- voiced
- sound
- source pulse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 40
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000006866 deterioration Effects 0.000 abstract description 5
- 238000001228 spectrum Methods 0.000 abstract description 4
- 230000002542 deteriorative effect Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 15
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、音声符号化方式に関し、特に音声情報を8K
bps前後に圧縮する際に符号化音声の品質を向上させ
るための方式に関するものである。
bps前後に圧縮する際に符号化音声の品質を向上させ
るための方式に関するものである。
音声信号を広帯域ケーブルで伝送するためには。
音声信号をサンプリングし、量子化して、2進のディジ
タル符号に変換することにより、PCM伝送する。
タル符号に変換することにより、PCM伝送する。
一方、専用ディジタル回線を用いて通信ネットワークを
構築する場合、通信コストの低減は非常に重要な課題で
あり、60 Kbpsにも及ぶ音声信号の情報量は多過
ぎるため、そのままでは伝送できない。そこで、伝送の
ための音声信号の情報圧縮(つまり低ビツトレート符号
化)が必要となった。
構築する場合、通信コストの低減は非常に重要な課題で
あり、60 Kbpsにも及ぶ音声信号の情報量は多過
ぎるため、そのままでは伝送できない。そこで、伝送の
ための音声信号の情報圧縮(つまり低ビツトレート符号
化)が必要となった。
音声信号を8KbpsM後で圧縮する音声符号′叱方式
としては、音声をスペクトル包絡情報と音源情報とに分
離して、各々を符号化する方法が知られている。その中
で、音源情報を単一パルス列と白色雑音でモデル化した
ものが、いわゆるPARCOR(Partial A
utocorrelation:偏自己相関)法であり
、この方法では、低ビツトレートで符号化できるが、そ
の反面、品質の劣化が大きい。これに対して、音源を複
数のパルス列で表現する方式として、マルチパルス法(
例えば、小浜、他「マルチパルス駆動形音声符号化法の
品質改善」日本音響学会音声研究会資料S 83−78
(1984,1)参照)や、あるいは残差圧縮法(浅
用、他「残差情報を利用した音声合成法の検討」日本音
響学会講演論文集3−1−7(昭和59.10)参照)
等がある。
としては、音声をスペクトル包絡情報と音源情報とに分
離して、各々を符号化する方法が知られている。その中
で、音源情報を単一パルス列と白色雑音でモデル化した
ものが、いわゆるPARCOR(Partial A
utocorrelation:偏自己相関)法であり
、この方法では、低ビツトレートで符号化できるが、そ
の反面、品質の劣化が大きい。これに対して、音源を複
数のパルス列で表現する方式として、マルチパルス法(
例えば、小浜、他「マルチパルス駆動形音声符号化法の
品質改善」日本音響学会音声研究会資料S 83−78
(1984,1)参照)や、あるいは残差圧縮法(浅
用、他「残差情報を利用した音声合成法の検討」日本音
響学会講演論文集3−1−7(昭和59.10)参照)
等がある。
残差圧縮法としては、例えば特開昭61−296398
号公報に記載された方法が提案されており、また特願昭
60−241419号、特願昭61−35148号の各
明細書にも記載されている。
号公報に記載された方法が提案されており、また特願昭
60−241419号、特願昭61−35148号の各
明細書にも記載されている。
これらの方式では、音源の表現が精密化する分だけ、P
ARCOR法に比べて品質が向上している。
ARCOR法に比べて品質が向上している。
(発明が解決しようとする問題点〕
前述の従来技術においては、音源である複数のパルス列
を、フレームごとに独立して一定の基準で生成する。こ
こで、フレームとは、音声を分析する時間単位であって
、通常は20 m s程度に設定される。
を、フレームごとに独立して一定の基準で生成する。こ
こで、フレームとは、音声を分析する時間単位であって
、通常は20 m s程度に設定される。
ところで、音声波形は、サンプリングされてサンプル値
X□の系列に変換されているものとする。
X□の系列に変換されているものとする。
現在をxtとし、それから過去にさかのぼる2個のサン
プル値を(Xt−i) 、(i = 11 ・・・、
p)とする。ここで、音声波形は近似的に過去の2個の
サンプルから予測できると仮定する。予測の中で最も簡
単なものは線形予測であるから、過去のサンプル値の各
々にある一定の係数を乗じて加え合わせたもので、現在
の値が近似されるもと考える。このとき、現在点しての
実現値X、と予測値y、との差を、予測誤差εとする。
プル値を(Xt−i) 、(i = 11 ・・・、
p)とする。ここで、音声波形は近似的に過去の2個の
サンプルから予測できると仮定する。予測の中で最も簡
単なものは線形予測であるから、過去のサンプル値の各
々にある一定の係数を乗じて加え合わせたもので、現在
の値が近似されるもと考える。このとき、現在点しての
実現値X、と予測値y、との差を、予測誤差εとする。
この予測誤差εを、予測残差または単に残差と呼ぶ。音
声波形の予測残差波形は、2種類の波形の和と考えられ
る。その1つは、いわゆる誤差成分であり、その振幅は
余り大きくなく、ランダムな雑音波形に近い。また、他
の1つは、入力に声帯振動によるパルスが加わったとき
の誤差であって、予測が大きく狂い、振幅の大きな残差
波形とな′る。この残差成分は、音源の周期性に対応し
て、繰り返し周期的に現われる。
声波形の予測残差波形は、2種類の波形の和と考えられ
る。その1つは、いわゆる誤差成分であり、その振幅は
余り大きくなく、ランダムな雑音波形に近い。また、他
の1つは、入力に声帯振動によるパルスが加わったとき
の誤差であって、予測が大きく狂い、振幅の大きな残差
波形とな′る。この残差成分は、音源の周期性に対応し
て、繰り返し周期的に現われる。
音声は、周期性を有する区間(有声音)と、周期性が顕
著でない区間(無声音)とに大別されるので、それに対
応して、予測残差波形も、有声音部では周期性を有して
いる。
著でない区間(無声音)とに大別されるので、それに対
応して、予測残差波形も、有声音部では周期性を有して
いる。
一方、マルチパルス法や残差圧縮法において生成される
パルス列は、残差の近似とみなすことができるので、有
声音部では周期性を有するはずである。ところが、これ
らのパルス列は前後のフレームとは独立して生成される
ために、パルス列の相対的な位置関係がフレームごとに
ずれてしまい、周期性が乱れる場合がある。
パルス列は、残差の近似とみなすことができるので、有
声音部では周期性を有するはずである。ところが、これ
らのパルス列は前後のフレームとは独立して生成される
ために、パルス列の相対的な位置関係がフレームごとに
ずれてしまい、周期性が乱れる場合がある。
このようなパルス列を音源として音声を合成すると、「
ゴロゴロ」という音質劣化が生じるという問題があった
。
ゴロゴロ」という音質劣化が生じるという問題があった
。
本発明の目的は、このような従来の問題を改善し、マル
チパルス法や残差圧縮法で生成されるパルス列に対して
、フレームごとの周期性の乱れによる音質の劣化を防止
することができる音声符号化方式を提供することにある
。
チパルス法や残差圧縮法で生成されるパルス列に対して
、フレームごとの周期性の乱れによる音質の劣化を防止
することができる音声符号化方式を提供することにある
。
上記目的を達成するため、本発明の音声符号化方式は、
有声フレームが無声フレームから切り替わった直後か、
有声フレームが連続したか、あるいは無声フレームであ
るかのいずれかを判定する手段と、上記無声フレームか
ら有声フレームに切り替わった直後に、音源パルスを生
成する第1の音源パルス生成手段と、上記有声フレーム
が連続するときに、音源パルスを生成する第2の音源パ
ルス生成手段と、上記無声フレームのときに、音源パル
スを生成する第3の音源パルス生成手段とを具備するこ
とに特徴がある。
有声フレームが無声フレームから切り替わった直後か、
有声フレームが連続したか、あるいは無声フレームであ
るかのいずれかを判定する手段と、上記無声フレームか
ら有声フレームに切り替わった直後に、音源パルスを生
成する第1の音源パルス生成手段と、上記有声フレーム
が連続するときに、音源パルスを生成する第2の音源パ
ルス生成手段と、上記無声フレームのときに、音源パル
スを生成する第3の音源パルス生成手段とを具備するこ
とに特徴がある。
本発明においては、最初に生成されたパルス列を基準と
して、ピッチ周期により次のフレームのパルス列の位置
を推定し、その推定された位置の近傍で新たなパルス列
を生成し、周期性を保持する。すなわち、有声音におけ
る音声の周期は、声の高さであるピッチ周波数の逆数で
あるピッチ周期に対応している。声の高さの変化は比較
的ゆるやかであるから、1フレームの中ではほぼ一定と
みなすことができる。そこで、最初の基準となるフレー
ム、例えば、無声音から有声音に切り替わった最初のフ
レームでは、従来技術により一定の基準で音源パルス列
を生成した後、順次、生成された音源パルス列を基準に
次のフレームにおける音源パルス列の位置を推定して、
音源パルス列を生成する方法を用いる。
して、ピッチ周期により次のフレームのパルス列の位置
を推定し、その推定された位置の近傍で新たなパルス列
を生成し、周期性を保持する。すなわち、有声音におけ
る音声の周期は、声の高さであるピッチ周波数の逆数で
あるピッチ周期に対応している。声の高さの変化は比較
的ゆるやかであるから、1フレームの中ではほぼ一定と
みなすことができる。そこで、最初の基準となるフレー
ム、例えば、無声音から有声音に切り替わった最初のフ
レームでは、従来技術により一定の基準で音源パルス列
を生成した後、順次、生成された音源パルス列を基準に
次のフレームにおける音源パルス列の位置を推定して、
音源パルス列を生成する方法を用いる。
マルチパルス法や残差圧縮法では、音源パルス数が少な
いので、一般に生成される音源パルス列はピッチ周期ご
とに一塊のまとまったものとなる。
いので、一般に生成される音源パルス列はピッチ周期ご
とに一塊のまとまったものとなる。
従って、フレームの最後のピッチ周期における音源パル
ス列を基準として、ピッチ周期だけ時間軸方向に進めた
位置を次のフレームの先頭のパルス列の位置とするので
ある。このようにすれば、2フレ一ム間でのパルス列の
周期性が保持される。
ス列を基準として、ピッチ周期だけ時間軸方向に進めた
位置を次のフレームの先頭のパルス列の位置とするので
ある。このようにすれば、2フレ一ム間でのパルス列の
周期性が保持される。
次フレームにおいては、この位置を基準として、この位
置の近傍に最初の音源パルス列を生成する。
置の近傍に最初の音源パルス列を生成する。
それにより、フレーム間での周期性の乱れは無くなり、
音質の劣化も防止でき、かつパルス列生成の基準に基づ
いた最適な音源パルス列が得られることになる。
音質の劣化も防止でき、かつパルス列生成の基準に基づ
いた最適な音源パルス列が得られることになる。
以下、本発明の実施例を、図面により詳細に説明する。
第1図は、本発明の音声符号化方式を残差圧縮法を用い
た音声符号化装置(音声C0DEC)に適用した場合の
ブロック構成図であって、(a)が符号化部であり、(
b)が復号化部である。
た音声符号化装置(音声C0DEC)に適用した場合の
ブロック構成図であって、(a)が符号化部であり、(
b)が復号化部である。
本発明の符号化部は、第1図(a)に示すように、ディ
ジタル音声信号を格納するバッファメモリ1と、線形予
測を行う線形予測回路3と、パラメータ4を用いて制御
される逆フィルタ5と、残差相関法等を用いてピッチを
抽出するピッチ抽出向路7と、有声無声判定回路9と、
有声無声判定結果に応じて音源パルスを生成する音源生
成部11と、量子化符号化回路13とを具備している。
ジタル音声信号を格納するバッファメモリ1と、線形予
測を行う線形予測回路3と、パラメータ4を用いて制御
される逆フィルタ5と、残差相関法等を用いてピッチを
抽出するピッチ抽出向路7と、有声無声判定回路9と、
有声無声判定結果に応じて音源パルスを生成する音源生
成部11と、量子化符号化回路13とを具備している。
また、本発明の復号化部は、第1図(b)に示すように
、入力信号を4種のパラメータに分離する復号回路16
と、復号化されたスペクトルパラメータを格納するバッ
ファメモリ19と、ピッチ周期と有声無声判定結果と音
源情報を入力として、音源パルスを再生する音源パルス
再生回路17と、音源パルス再生回路17での遅延を補
正して、これを係数とする合成フィルタ20とを具備し
ている。
、入力信号を4種のパラメータに分離する復号回路16
と、復号化されたスペクトルパラメータを格納するバッ
ファメモリ19と、ピッチ周期と有声無声判定結果と音
源情報を入力として、音源パルスを再生する音源パルス
再生回路17と、音源パルス再生回路17での遅延を補
正して、これを係数とする合成フィルタ20とを具備し
ている。
第1図(、)において、符号化時には、ディジタル化さ
れた音声信号は、バッファメモリ1に1フレ一ム分格納
され、よく知られている線形予測回路3により、スペク
トル包絡を表わすパラメータ(例えば、偏自己相関係数
)4に変換される。次に、このパラメータ4を係数に用
いて逆フィルタ5を構成し、これに音声信号2を入力す
ることにより。
れた音声信号は、バッファメモリ1に1フレ一ム分格納
され、よく知られている線形予測回路3により、スペク
トル包絡を表わすパラメータ(例えば、偏自己相関係数
)4に変換される。次に、このパラメータ4を係数に用
いて逆フィルタ5を構成し、これに音声信号2を入力す
ることにより。
残差信号6を得る。ピッチ抽出回路7は、残差相関法や
AMDF (Average Magnitude
Differential F unction)
法等のよく知られた手法を用いており、残差信号6を入
力としてフレームのピッチ周期8を抽出する。有声無声
判定回路9は、そのフレームが有声フレームであるか無
声フレームであるかの判定結果10a、および無声フレ
ームから有声フレームに切り替わったことを示す信号1
0bを出力する。音源生成部11は、本発明により新た
に設けられたものであって、有声無声判定結果10aお
よび切り替え信号10bに応じて音源パルスを生成し、
その情報12を出力する。
AMDF (Average Magnitude
Differential F unction)
法等のよく知られた手法を用いており、残差信号6を入
力としてフレームのピッチ周期8を抽出する。有声無声
判定回路9は、そのフレームが有声フレームであるか無
声フレームであるかの判定結果10a、および無声フレ
ームから有声フレームに切り替わったことを示す信号1
0bを出力する。音源生成部11は、本発明により新た
に設けられたものであって、有声無声判定結果10aお
よび切り替え信号10bに応じて音源パルスを生成し、
その情報12を出力する。
量子化符号化回路13は、スペクトルパラメータ4とピ
ッチ周期8と有声無声判定結果10aと音源情報12と
を受は取り、所定のビット数に量子化して、所定の書式
に変換された結果14をディジタル回線15に送出する
。
ッチ周期8と有声無声判定結果10aと音源情報12と
を受は取り、所定のビット数に量子化して、所定の書式
に変換された結果14をディジタル回線15に送出する
。
第1図(b)において、復号化時には、ディジタル回線
15から受信されたディジタル・データ14が復号回路
16に入力されると、(a)に示す4種のパラメータ(
ピッチ周期8′、音源情報12′。
15から受信されたディジタル・データ14が復号回路
16に入力されると、(a)に示す4種のパラメータ(
ピッチ周期8′、音源情報12′。
有声無声判定結果IQa’ 、スペクトルパラ3.−タ
4′)に分離される。上記4種のパラメータのうちの3
種のパラメータ(復号化されたピッチ周期8′、有声無
声判定結果10a’、音源情報12′)を入力とする音
源パルス再生回路17により、目的とする音源パルス1
8を得る。
4′)に分離される。上記4種のパラメータのうちの3
種のパラメータ(復号化されたピッチ周期8′、有声無
声判定結果10a’、音源情報12′)を入力とする音
源パルス再生回路17により、目的とする音源パルス1
8を得る。
一方、4種のパラメータのうちの1種のパラメータ(復
号化されたスペクトルパラメータ4′)のみは、バッフ
ァメモリ19に格納され、音源パルス再生回路17での
遅延を補正した後、そのバッファメモリ19の出力を合
成フィルタ20の係数として用いる。音源パルス18を
この合成フィルタ20に入力することにより、その出力
として合成音声21を得ることができる。
号化されたスペクトルパラメータ4′)のみは、バッフ
ァメモリ19に格納され、音源パルス再生回路17での
遅延を補正した後、そのバッファメモリ19の出力を合
成フィルタ20の係数として用いる。音源パルス18を
この合成フィルタ20に入力することにより、その出力
として合成音声21を得ることができる。
第2図は、第1図における音源生成部の機能ブロック図
である。
である。
音源生成部11は、第2図に示すように、無声から有声
に切り替わったことにより制御を切り替えるための切替
制御部31と、残差信号を格納するバッファメモリ11
1と、無声から有声に切り替わったとき、パルスの抽出
位置を決定するためのパルス抽出位置決定部112と、
前フレームで決定された代表残差の先頭アドレスがバッ
ファメモリ111のアドレスに変換されて格納されてい
る先頭位置メモリ30と、有声フレームが連続している
とき、パルス抽出位置を決定するためのパルス抽出位置
決定部32と、先頭アドレスおよびバッファメモリ11
1から音源を抽出するための音源抽出部115と、無声
音源を生成するための無声音源生成部116とから構成
されている。
に切り替わったことにより制御を切り替えるための切替
制御部31と、残差信号を格納するバッファメモリ11
1と、無声から有声に切り替わったとき、パルスの抽出
位置を決定するためのパルス抽出位置決定部112と、
前フレームで決定された代表残差の先頭アドレスがバッ
ファメモリ111のアドレスに変換されて格納されてい
る先頭位置メモリ30と、有声フレームが連続している
とき、パルス抽出位置を決定するためのパルス抽出位置
決定部32と、先頭アドレスおよびバッファメモリ11
1から音源を抽出するための音源抽出部115と、無声
音源を生成するための無声音源生成部116とから構成
されている。
本実施例の音声符号化方式は、有声フレームの音源生成
に関するものであるため、有声無声判定結果10aは有
声を示しており、ピッチ周期8は値が確定しているもの
とする(以下、ピッチ周期の値をNPTCT〜■とする
)。
に関するものであるため、有声無声判定結果10aは有
声を示しており、ピッチ周期8は値が確定しているもの
とする(以下、ピッチ周期の値をNPTCT〜■とする
)。
先ず、有声無声切替信号10bが無声から有声に切り替
わった直後であることを示しているときには、切替制御
部31からの信号で制御がパルス抽出位置決定部(I)
112に移る。ここで制御される場合の音源生成部11
の機能は、従来の残差圧縮法(例えば、前述の公報(特
開昭61−296398号公報)に第2の方法として記
載されている残差圧縮法)と同一である。すなわち、代
表的なピッチ区間に対して、連続したLN本の残差パル
スを抽出する(ここで、LN本とは、抽出パルス数11
3の値で示される本数である)。
わった直後であることを示しているときには、切替制御
部31からの信号で制御がパルス抽出位置決定部(I)
112に移る。ここで制御される場合の音源生成部11
の機能は、従来の残差圧縮法(例えば、前述の公報(特
開昭61−296398号公報)に第2の方法として記
載されている残差圧縮法)と同一である。すなわち、代
表的なピッチ区間に対して、連続したLN本の残差パル
スを抽出する(ここで、LN本とは、抽出パルス数11
3の値で示される本数である)。
また、前述の特願昭60−241419号明細書に記載
されているように、復号時に、前フレームの復号残差と
現フレームの代表残差を補間する場合には2代表ピッチ
区間は現フレームの最後の点を含むように定める。つま
り、パルス抽出位置決定部(1)112においては1次
式を算出する。
されているように、復号時に、前フレームの復号残差と
現フレームの代表残差を補間する場合には2代表ピッチ
区間は現フレームの最後の点を含むように定める。つま
り、パルス抽出位置決定部(1)112においては1次
式を算出する。
AMP(i)りx7゛IxJ・・・・・(1)ただし、
iは次の条件式を満足する。
iは次の条件式を満足する。
i F RM −N P T CH+ 1≦i≦iFR
M・・・・・・・・ (2) ここで、x4は、アドレスjの残差パルス振幅であり、
バッファメモリ111から読み出される。
M・・・・・・・・ (2) ここで、x4は、アドレスjの残差パルス振幅であり、
バッファメモリ111から読み出される。
なお、バッファメモリ111はリングバッファであって
、前フレームと現フレームの残差が格納されている。ま
た、iFRMはフレーム長であり、LNは抽出パルス数
113の値である。
、前フレームと現フレームの残差が格納されている。ま
た、iFRMはフレーム長であり、LNは抽出パルス数
113の値である。
例えば、パルス抽出位置決定部112が、補間すべき次
の残差パルスの振幅情報と位置情報を求るるため、上式
(1)、(2)式で先ず振幅累計値を求める。いま、バ
ッファメモリ111に、現フレーム長としてO〜159
のアドレスが割付けられ、代表的ピッチ区間に対して連
続した20本の残差パルスがある場合には、次の代表ピ
ッチ区間は呪フレームの最後の点を含むようにして決定
され、上式(2)よりフレーム長より小さく、かつフレ
ーム長よりピッチ周期だけ小さい区間より大きい区間内
に求める位置iを定める。そして、上記(1)式で算出
された振幅累計値から先頭アドレスを求め、そのアドレ
スから20本分の残差パルスをバッファメモリ111か
ら取り出すことにより補間するのである。
の残差パルスの振幅情報と位置情報を求るるため、上式
(1)、(2)式で先ず振幅累計値を求める。いま、バ
ッファメモリ111に、現フレーム長としてO〜159
のアドレスが割付けられ、代表的ピッチ区間に対して連
続した20本の残差パルスがある場合には、次の代表ピ
ッチ区間は呪フレームの最後の点を含むようにして決定
され、上式(2)よりフレーム長より小さく、かつフレ
ーム長よりピッチ周期だけ小さい区間より大きい区間内
に求める位置iを定める。そして、上記(1)式で算出
された振幅累計値から先頭アドレスを求め、そのアドレ
スから20本分の残差パルスをバッファメモリ111か
ら取り出すことにより補間するのである。
上式(1)で算出されたAMP(i)の最大値を与える
iを10とすると、10が代表残差の先頭アドレス11
4aである。先頭アドレス114aが音源抽出部115
に送られると、先頭アドレスからL N本の残差をバッ
ファメモリ111から読み出し、これらを音源情報12
として後段に送出する。
iを10とすると、10が代表残差の先頭アドレス11
4aである。先頭アドレス114aが音源抽出部115
に送られると、先頭アドレスからL N本の残差をバッ
ファメモリ111から読み出し、これらを音源情報12
として後段に送出する。
次に、有声無声切替信号10bが無声から有声への切り
替わり直後でないとき、つまり有声フレA%が連続して
いることを示す場合について、詳述する。
替わり直後でないとき、つまり有声フレA%が連続して
いることを示す場合について、詳述する。
このときには、切替制御部31からの信号で、制御がパ
ルス抽出位置決定部(II)32に移る。
ルス抽出位置決定部(II)32に移る。
バッファメモリ111には、2フレ一ム分の残差が格納
されている。アドレス−iFRM+1〜0までが前フレ
ーム分であり、1〜iFRMまでが現フレーム分である
。また、先頭位置メモリ30には、前フレームで決定さ
れた代表残差の先頭アドレスi。がバッファメモリ11
1上のアドレスに変換され(i、’ = i、 −i
F RM)、これが格納されている。現フレームの代表
残差の先頭位・・・・・・・・・ (3) なお、上式(3)において、5TADR3,、・・・・
・・5TADR3Nは、復号時に代表残差を補間するた
めの先頭アドレスに対応したものであって、5TADR
5Nは現フレームにおける最後のピッチ区間内のもの、
つまり代表残差の先頭アドレスであり、次のようになる
。
されている。アドレス−iFRM+1〜0までが前フレ
ーム分であり、1〜iFRMまでが現フレーム分である
。また、先頭位置メモリ30には、前フレームで決定さ
れた代表残差の先頭アドレスi。がバッファメモリ11
1上のアドレスに変換され(i、’ = i、 −i
F RM)、これが格納されている。現フレームの代表
残差の先頭位・・・・・・・・・ (3) なお、上式(3)において、5TADR3,、・・・・
・・5TADR3Nは、復号時に代表残差を補間するた
めの先頭アドレスに対応したものであって、5TADR
5Nは現フレームにおける最後のピッチ区間内のもの、
つまり代表残差の先頭アドレスであり、次のようになる
。
10=STADR3H・・・・・・・・ (4)このよ
うにすれば、前フレームの代表残差先頭アドレスから現
フレームの代表残差先頭アドレスを、極めて簡単に求め
ることができる。
うにすれば、前フレームの代表残差先頭アドレスから現
フレームの代表残差先頭アドレスを、極めて簡単に求め
ることができる。
しかし、ピッチ周期NPTCHは、現フレームの平均的
なピッチ周期であるため、実際のピッチ位置とは誤差を
持つ可能性がある。そこで、より精密に位置を決めるた
めに、次のようにする。
なピッチ周期であるため、実際のピッチ位置とは誤差を
持つ可能性がある。そこで、より精密に位置を決めるた
めに、次のようにする。
先ず、(5)式により、短区間相互相関値を定義する。
x o ’ + NPTCII D≦i≦i 0’
+ NPTCII + D・・・・・・・ (6) ここで、D(>O)は、ピッチのゆらぎ等で決まる値で
あり、CORは相互相関値を表わす。上式(6)では、
現フレームの最初の音源パルス列の先頭アドレスの存在
範囲が前フレームの代表残差の先頭アドレスにピッチ周
期のゆらぎを考慮して加算した範囲にあることを示して
おり、上式(5)では、先頭アドレスから抽出パルス数
LN本分の残差パルスの振幅累積値を求めるもので、位
相が一致していれば相関値は最大値となる。
+ NPTCII + D・・・・・・・ (6) ここで、D(>O)は、ピッチのゆらぎ等で決まる値で
あり、CORは相互相関値を表わす。上式(6)では、
現フレームの最初の音源パルス列の先頭アドレスの存在
範囲が前フレームの代表残差の先頭アドレスにピッチ周
期のゆらぎを考慮して加算した範囲にあることを示して
おり、上式(5)では、先頭アドレスから抽出パルス数
LN本分の残差パルスの振幅累積値を求めるもので、位
相が一致していれば相関値は最大値となる。
次の式により、第1のスタートアドレスを求める。
・ ・ ・ ・ ・ ・ ・ ・ ・ (7)上式(7
)では、前フレームの代表残差とNPTCH離れた位置
の近傍で、最も相関値が高くなる位置iを検出したこと
になる。以下、 10′ を5TADR3□に置き換え
て、同じ手順で5TADR32を求め、順次、5TAD
R8N(=io)まで求めればよい。
)では、前フレームの代表残差とNPTCH離れた位置
の近傍で、最も相関値が高くなる位置iを検出したこと
になる。以下、 10′ を5TADR3□に置き換え
て、同じ手順で5TADR32を求め、順次、5TAD
R8N(=io)まで求めればよい。
また、5TADR8nの決定には、上式(1)を利用す
ることも可能である(ここで、nは任意の整数)。すな
わち、上式(1)におけるiの範囲を(6)式として、
下記(8)式を導く。
ることも可能である(ここで、nは任意の整数)。すな
わち、上式(1)におけるiの範囲を(6)式として、
下記(8)式を導く。
・・・・・・・・・・ (8)
以下、同じ手順で、5TADR5N(=i、)まで求め
る。
る。
以上に述べたうちのいずれかの方法で決定した代表残差
の先頭アドレス(io)114bを、音源抽出部115
に送出する。
の先頭アドレス(io)114bを、音源抽出部115
に送出する。
復号時には、従来の方法(例えば、前述の特願昭60−
241419号明細書参照)により1代表残差と前フレ
ームの復号残差とを補間しながら音源パルスを再生する
。このとき、補間対応点アドレスは、前フレームの代表
残差位置そのものであるから、改めて伝送する必要がな
い。
241419号明細書参照)により1代表残差と前フレ
ームの復号残差とを補間しながら音源パルスを再生する
。このとき、補間対応点アドレスは、前フレームの代表
残差位置そのものであるから、改めて伝送する必要がな
い。
本実施例に示す音源パルス生成部11は、以上詳述した
ように、加算器、相関器および比較器等により簡単に実
現することができる。また、汎用のマイクロプロセッサ
により、同じ機能を実現することも可能である。
ように、加算器、相関器および比較器等により簡単に実
現することができる。また、汎用のマイクロプロセッサ
により、同じ機能を実現することも可能である。
なお、現フレームにおいて、有声無声判定結果10aが
無声となっているときには、切替制御部31からの制御
信号により、制御が無声音源生成部116に切り替えら
れる。無声音源生成部116の動作は、例えば、従来提
案されている方法(例えば、特願昭61−35148号
明細書参照)のように、ピッチ周期とは無関係に音源パ
ルスを生成するものである。
無声となっているときには、切替制御部31からの制御
信号により、制御が無声音源生成部116に切り替えら
れる。無声音源生成部116の動作は、例えば、従来提
案されている方法(例えば、特願昭61−35148号
明細書参照)のように、ピッチ周期とは無関係に音源パ
ルスを生成するものである。
第3図は、本発明の詳細な説明するためのタイムチャー
トである。
トである。
第3図(a)は従来の方法による入力音声波形41、残
差波形42、代表残差波形43a、および合成波形44
aを示す波形図であり、第3図(b)は本実施例による
入力音声波形41.残差波形42、代表残差43b、お
よび合成波形44 bを示す波形図である。
差波形42、代表残差波形43a、および合成波形44
aを示す波形図であり、第3図(b)は本実施例による
入力音声波形41.残差波形42、代表残差43b、お
よび合成波形44 bを示す波形図である。
入力音声波形41は(a)(b)ともに同一波形であっ
て、逆フィルタ5の残差信号の波形42も同一波形とな
る。従来の方法では、代表残差(復号後)をフレームご
とに独立に抽出しているので、波形43aに示すように
、フレーム#3において代表残差の位置ずれが生じてお
り1周期性が乱れている。矢印で、そのずれ幅を示して
いる。その結果、第3図(、)に示すように、合成波形
44aは位置ずれが生じた位置で振幅の減衰が生じ、音
質の劣化を招いている。
て、逆フィルタ5の残差信号の波形42も同一波形とな
る。従来の方法では、代表残差(復号後)をフレームご
とに独立に抽出しているので、波形43aに示すように
、フレーム#3において代表残差の位置ずれが生じてお
り1周期性が乱れている。矢印で、そのずれ幅を示して
いる。その結果、第3図(、)に示すように、合成波形
44aは位置ずれが生じた位置で振幅の減衰が生じ、音
質の劣化を招いている。
本実施例の場合には、第3図(b)に示すように、有声
フレームが連続したとき、前フレームの代表残差位置を
基準として従属的に抽出した代表残差(復号後)43b
となる。この代表残差43bには位置すれかなく、従っ
て合成波形44bも減衰がなく、自然であって、第3図
(a)の従来方式に比較して音質が向上している。
フレームが連続したとき、前フレームの代表残差位置を
基準として従属的に抽出した代表残差(復号後)43b
となる。この代表残差43bには位置すれかなく、従っ
て合成波形44bも減衰がなく、自然であって、第3図
(a)の従来方式に比較して音質が向上している。
以上説明したように、本発明によれば、有声音が連続す
るときには、本来の音声が有する周期性を乱すことなく
音源パルス列を生成するので、周期性の乱れにより生じ
ていた音質の劣化を防ぐことができ、符号化音声の品質
を向上させることが可能である。
るときには、本来の音声が有する周期性を乱すことなく
音源パルス列を生成するので、周期性の乱れにより生じ
ていた音質の劣化を防ぐことができ、符号化音声の品質
を向上させることが可能である。
第1図は本発明の一実施例を示す音声符号化システムの
ブロック図、第2図は第1図における音源生成部のブロ
ック図、第3図は本発明の詳細な説明する波形タイムチ
ャートである。 1.19,111:バッファメモリ、3:線形予測回路
、5:逆フィルタ、7:ピッチ抽出回路、9:有声無声
判別器、11:音源生成部、17:音源パルス再生器、
20:合成フィルタ、31:切替制御部、112,32
:パルス抽出位置決定回路、30:先頭位置メモリ、1
16:無声音源生成部、115:音源抽出部、6:残差
信号、12:音源情報、21:合成音声、43a、b:
代表残差波形、44a、b:合成波形、42:残差波形
、41:入力音声波形。 特許出願人 株式会社 日立製作所 ]1゛
ブロック図、第2図は第1図における音源生成部のブロ
ック図、第3図は本発明の詳細な説明する波形タイムチ
ャートである。 1.19,111:バッファメモリ、3:線形予測回路
、5:逆フィルタ、7:ピッチ抽出回路、9:有声無声
判別器、11:音源生成部、17:音源パルス再生器、
20:合成フィルタ、31:切替制御部、112,32
:パルス抽出位置決定回路、30:先頭位置メモリ、1
16:無声音源生成部、115:音源抽出部、6:残差
信号、12:音源情報、21:合成音声、43a、b:
代表残差波形、44a、b:合成波形、42:残差波形
、41:入力音声波形。 特許出願人 株式会社 日立製作所 ]1゛
Claims (1)
- 【特許請求の範囲】 1、音声信号をフレームごとに分析し、かつスペクトル
包絡情報と音声情報とに分離し、また該音声信号が有声
か無声かを判定して、有声フレームでは音源として1ピ
ッチ周期当り複数本のパルスを用いた音声符号化方式に
おいて、上記有声フレームが無声フレームから切り替わ
った直後か、有声フレームが連続したか、あるいは無声
フレームであるかのいずれかを判定する手段と、上記無
声フレームから有声フレームに切り替わった直後に、音
源パルスを生成する第1の音源パルス生成手段と、上記
有声フレームが連続するときに、音源パルスを生成する
第2の音源パルス生成手段と、上記無声フレームのとき
に、音源パルスを生成する第3の音源パルス生成手段と
を具備することを特徴とする音声符号化方式。 2、上記第2の音源パルス生成手段は、現在の有声フレ
ームの直前の有声フレームの音源パルス位置を基準に、
ピッチ周期により現在の有声フレームの音源パルス位置
を決定し、決定された位置の近傍に音源パルス列を生成
することを特徴とする特許請求の範囲第1項記載の音声
符号化方式。 3、上記現在の有声フレームの音源パルス位置の決定の
ため、相関法を用いることを特徴とする特許請求の範囲
第2項記載の音声符号化方式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62315621A JP2707564B2 (ja) | 1987-12-14 | 1987-12-14 | 音声符号化方式 |
US07/282,497 US5119424A (en) | 1987-12-14 | 1988-12-12 | Speech coding system using excitation pulse train |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62315621A JP2707564B2 (ja) | 1987-12-14 | 1987-12-14 | 音声符号化方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01155400A true JPH01155400A (ja) | 1989-06-19 |
JP2707564B2 JP2707564B2 (ja) | 1998-01-28 |
Family
ID=18067568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62315621A Expired - Lifetime JP2707564B2 (ja) | 1987-12-14 | 1987-12-14 | 音声符号化方式 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5119424A (ja) |
JP (1) | JP2707564B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03156499A (ja) * | 1989-11-15 | 1991-07-04 | Nec Corp | 音声符号化方法 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
JP2906968B2 (ja) * | 1993-12-10 | 1999-06-21 | 日本電気株式会社 | マルチパルス符号化方法とその装置並びに分析器及び合成器 |
US5574825A (en) * | 1994-03-14 | 1996-11-12 | Lucent Technologies Inc. | Linear prediction coefficient generation during frame erasure or packet loss |
JPH08254993A (ja) * | 1995-03-16 | 1996-10-01 | Toshiba Corp | 音声合成装置 |
US5664054A (en) * | 1995-09-29 | 1997-09-02 | Rockwell International Corporation | Spike code-excited linear prediction |
US6240384B1 (en) | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
DE69819460T2 (de) * | 1997-07-11 | 2004-08-26 | Koninklijke Philips Electronics N.V. | Übertrager mit verbessertem sprachkodierer und dekodierer |
US6260017B1 (en) * | 1999-05-07 | 2001-07-10 | Qualcomm Inc. | Multipulse interpolative coding of transition speech frames |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
US7243295B2 (en) * | 2001-06-12 | 2007-07-10 | Intel Corporation | Low complexity channel decoders |
JP2003255976A (ja) * | 2002-02-28 | 2003-09-10 | Nec Corp | 音声素片データベースの圧縮伸張を行なう音声合成装置及び方法 |
US7458536B2 (en) * | 2003-04-01 | 2008-12-02 | The Perfect Measuring Tape Co. | Measuring tape |
FI118704B (fi) * | 2003-10-07 | 2008-02-15 | Nokia Corp | Menetelmä ja laite lähdekoodauksen tekemiseksi |
NZ562182A (en) | 2005-04-01 | 2010-03-26 | Qualcomm Inc | Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal |
DK1875463T3 (en) | 2005-04-22 | 2019-01-28 | Qualcomm Inc | SYSTEMS, PROCEDURES AND APPARATUS FOR AMPLIFIER FACTOR GLOSSARY |
TWI358056B (en) * | 2005-12-02 | 2012-02-11 | Qualcomm Inc | Systems, methods, and apparatus for frequency-doma |
US8364492B2 (en) * | 2006-07-13 | 2013-01-29 | Nec Corporation | Apparatus, method and program for giving warning in connection with inputting of unvoiced speech |
PT2102619T (pt) * | 2006-10-24 | 2017-05-25 | Voiceage Corp | Método e dispositivo para codificação de tramas de transição em sinais de voz |
KR101356733B1 (ko) * | 2007-03-07 | 2014-02-05 | 삼성전자주식회사 | 컨텍스트 기반 적응적 이진 산술 부호화, 복호화 방법 및장치 |
TWI327230B (en) * | 2007-04-03 | 2010-07-11 | Ind Tech Res Inst | Sound source localization system and sound soure localization method |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5965897A (ja) * | 1982-10-07 | 1984-04-14 | 松下電器産業株式会社 | 残差信号符号化方法 |
JPS60162300A (ja) * | 1984-02-02 | 1985-08-24 | 日本電気株式会社 | 音声符号化方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2102254B (en) * | 1981-05-11 | 1985-08-07 | Kokusai Denshin Denwa Co Ltd | A speech analysis-synthesis system |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
US4696038A (en) * | 1983-04-13 | 1987-09-22 | Texas Instruments Incorporated | Voice messaging system with unified pitch and voice tracking |
CA1252568A (en) * | 1984-12-24 | 1989-04-11 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate |
US4720861A (en) * | 1985-12-24 | 1988-01-19 | Itt Defense Communications A Division Of Itt Corporation | Digital speech coding circuit |
US4802221A (en) * | 1986-07-21 | 1989-01-31 | Ncr Corporation | Digital system and method for compressing speech signals for storage and transmission |
US4873723A (en) * | 1986-09-18 | 1989-10-10 | Nec Corporation | Method and apparatus for multi-pulse speech coding |
JP2586043B2 (ja) * | 1987-05-14 | 1997-02-26 | 日本電気株式会社 | マルチパルス符号化装置 |
-
1987
- 1987-12-14 JP JP62315621A patent/JP2707564B2/ja not_active Expired - Lifetime
-
1988
- 1988-12-12 US US07/282,497 patent/US5119424A/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5965897A (ja) * | 1982-10-07 | 1984-04-14 | 松下電器産業株式会社 | 残差信号符号化方法 |
JPS60162300A (ja) * | 1984-02-02 | 1985-08-24 | 日本電気株式会社 | 音声符号化方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03156499A (ja) * | 1989-11-15 | 1991-07-04 | Nec Corp | 音声符号化方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2707564B2 (ja) | 1998-01-28 |
US5119424A (en) | 1992-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH01155400A (ja) | 音声符号化方式 | |
EP1202251B1 (en) | Transcoder for prevention of tandem coding of speech | |
RU2407071C2 (ru) | Способ генерации кадров маскирования в системе связи | |
AU2006252972B2 (en) | Robust decoder | |
US4821324A (en) | Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate | |
JP2746033B2 (ja) | 音声復号化装置 | |
KR101780667B1 (ko) | 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램 | |
KR100722707B1 (ko) | 멀티미디어 신호를 전송하기 위한 전송 시스템 | |
US7302385B2 (en) | Speech restoration system and method for concealing packet losses | |
JP3722366B2 (ja) | パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム | |
JP3168238B2 (ja) | 再構成音声信号の周期性を増大させる方法および装置 | |
JP2006503323A (ja) | 位相の更新による正弦波オーディオコーディング | |
KR100594599B1 (ko) | 수신단 기반의 패킷 손실 복구 장치 및 그 방법 | |
JPS61148500A (ja) | 音声信号符号化方法とその装置 | |
JPS6238500A (ja) | 高能率音声符号化方式とその装置 | |
JPH0258100A (ja) | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 | |
RU2792658C1 (ru) | Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио | |
JPH05165497A (ja) | コード励振線形予測符号化器及び復号化器 | |
JPH0481199B2 (ja) | ||
JPH043878B2 (ja) | ||
JPH01261700A (ja) | 音声符号化方式 | |
JPS62207036A (ja) | 音声符号化方式とその装置 | |
JPH0683149B2 (ja) | 音声帯域信号符号化・復号化装置 | |
JPH10161696A (ja) | 音声符号化装置および音声復号化装置 | |
JPH03245199A (ja) | エラー補償方式 |