JP3558031B2 - 音声復号化装置 - Google Patents
音声復号化装置 Download PDFInfo
- Publication number
- JP3558031B2 JP3558031B2 JP2000337805A JP2000337805A JP3558031B2 JP 3558031 B2 JP3558031 B2 JP 3558031B2 JP 2000337805 A JP2000337805 A JP 2000337805A JP 2000337805 A JP2000337805 A JP 2000337805A JP 3558031 B2 JP3558031 B2 JP 3558031B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- circuit
- sound source
- source signal
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005236 sound signal Effects 0.000 claims description 63
- 238000009499 grossing Methods 0.000 claims description 56
- 238000004364 calculation method Methods 0.000 claims description 45
- 238000001228 spectrum Methods 0.000 claims description 43
- 230000003595 spectral effect Effects 0.000 claims description 41
- 230000015572 biosynthetic process Effects 0.000 claims description 39
- 238000003786 synthesis reaction Methods 0.000 claims description 39
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 5
- 230000006866 deterioration Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- IJWPAFMIFNSIGD-UHFFFAOYSA-N 4-[3-(3-fluorophenyl)-5,5-dimethyl-4-oxofuran-2-yl]benzenesulfonamide Chemical compound O=C1C(C)(C)OC(C=2C=CC(=CC=2)S(N)(=O)=O)=C1C1=CC=CC(F)=C1 IJWPAFMIFNSIGD-UHFFFAOYSA-N 0.000 description 1
- 101000622137 Homo sapiens P-selectin Proteins 0.000 description 1
- 102100023472 P-selectin Human genes 0.000 description 1
- 101000873420 Simian virus 40 SV40 early leader protein Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000009931 harmful effect Effects 0.000 description 1
- 229950006009 polmacoxib Drugs 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
【発明の属する技術分野】
本発明は、音声信号を復号化する音声復号化装置に関し、特に、低いビットレートで符号化された音声信号に含まれる背景雑音信号を良好に復号化することができる音声復号化装置に関する。
【0002】
【従来の技術】
音声信号を高能率に符号化する方式としては、例えば、M.Schroeder and B.Atal 氏による論文“Code−excited linear prediction: High quality speech at very low bit rates”(Proc. ICASSP, pp.937−940, 1985年)(以下、文献1と称する)や、Kleijn 氏らによる論文“Improved speech quality and efficientvector quantization in SELP”(Proc. ICASSP, pp.155−158, 1988年)(以下、文献2と称する)等に記載されているCELP(Code Excited Linear Predictive Coding)が知られている。
【0003】
CELPにおいては、送信側において、まず、音声信号のフレーム毎(例えば20ms)に線形予測(LPC:Linear Predictive Coding)分析を用いて、音声信号のスペクトル特性を表すスペクトルパラメータを抽出する。
【0004】
次に、各フレームをさらにサブフレーム(例えば5ms)に分割し、サブフレーム毎に過去の音源信号に基づいて、適応コードブックにおけるパラメータ(ピッチ周期に対応する遅延パラメータとゲインパラメータ)を抽出し、適応コードブックによりサブフレームの音声信号をピッチ予測する。
【0005】
次に、ピッチ予測により求めた音源信号に対して、予め決められた種類の雑音信号からなる音源コードブック(ベクトル量子化コードブック)から最適な音源コードベクトルを選択し、最適なゲインを計算することにより、音源信号を量子化する。なお、音源コードベクトルの選択においては、選択した雑音信号により合成した信号と残差信号との誤差電力を最小化するような音源コードベクトルを選択する。
【0006】
その後、選択された音源コードベクトルの種類を表すインデクスとゲイン、並びにスペクトルパラメータと適応コードブックのパラメータをマルチプレクサ部にて組み合わせて伝送する。
【0007】
また、音源コードブックから音源コードベクトルを探索する際に必要となる演算量を低減する方法として、種々のものが提案されており、その1つとして、例えば、C.Laflamme らによる論文“16 kbps wideband speech coding technique based on algebraic CELP”(Proc. ICASSP, pp. 13−16, 1991)(以下、文献3と称する)に記載された、ACELP(Argebraic Code Excited Linear Prediction)方式がある。
【0008】
このACELP方式においては、音源信号が複数個のパルスで表され、各パルスの位置が予め決められたビット数で表されて伝送されるが、各パルスの振幅が+1.0もしくは−1.0に限定されているため、パルス探索の演算量を大幅に低減することができる。
【0009】
【発明が解決しようとする課題】
しかしながら、上述したような音声信号を符号化する方式においては、符号化ビットレートを例えば8kb/s以下に削減すると、特に、音声信号に背景雑音信号が重畳している場合に、背景雑音信号の音質が劣化して全体の音質が劣化するという問題点がある。この問題点は、特に、携帯電話等で音声符号化を使用する場合に顕著に生じてしまう。
【0010】
文献1及び文献2に記載された符号化方式においては、符号化ビットレートを削減した場合、音源コードブックのビット数が低減し、波形の再現精度が低下してしまう。音声信号のように波形の相関の高い信号においては波形の再現精度の低下はそれほど顕著ではないが、背景雑音信号のように相関が低い信号に対しては、再現精度の低下が顕著になってしまう。
【0011】
また、文献3に記載された符号化方式においては、音源信号がパルスの組み合わせで表されているため、音声信号に対してはモデルの整合性が高く良好な音質を得ることができるものの、符号化ビットレートが低い場合に、パルスの個数が充分でないために、符号化音声の背景雑音部分の音質が極めて劣化してしまうとい問題点がある。
【0012】
この問題点は、音声の母音区間では、パルスがピッチの開始点であるピッチパルスの近辺に集中するために少ない個数のパルスで効率的に表すことができるものの、背景雑音のようなランダム信号に対しては、パルスをランダムに立てる必要があるため、少ない個数のパルスでは背景雑音を良好に表すことは困難であり、ビットレートが低減されてパルスの個数が削減された場合に背景雑音に対する音質が急激に劣化してしまうことに起因するものである。
【0013】
本発明は、符号化ビットレートが低い場合においても、上述したような符号化方式にて符号化された背景雑音信号が重畳された音声信号を、少ない演算量で劣化を抑制して復号化することができる音声復号化装置を提供することを目的とする。
【0014】
【課題を解決するための手段】
上記目的を達成するための本発明は、
符号化された音声信号を復号化する音声復号化装置において、
復号化された再生音声信号が入力され、該再生音声信号を用いてスペクトルパラメータを計算するスペクトルパラメータ計算回路と、
前記再生音声信号と前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータとを用いて音源信号を計算する音源信号計算手段と、
前記音源信号計算手段にて計算された音源信号のレベルと前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータとのうちの少なくとも1つを時間方向に平滑化して両者を出力する平滑化回路と、
前記平滑化回路から出力されたスペクトルパラメータを用いて合成フィルタを構成し、前記平滑化回路から出力された音源信号を前記合成フィルタにて合成し、音声信号として出力する合成フィルタ回路とを有し、
前記音源信号計算手段、前記平滑化回路及び前記合成フィルタ回路は、予め決められた条件下でのみ動作することを特徴とする。
【0015】
また、前記再生音声信号の特徴量を求め、該特徴量に基づいて前記再生音声信号のモードを判別するモード判別回路を有し、
前記音源信号計算手段、前記平滑化回路及び前記合成フィルタ回路は、前記モード判別回路にて前記再生音声信号が予め決められたモードであると判別された場合のみ動作することを特徴とする。
【0016】
また、前記音源信号計算手段、前記平滑化回路及び前記合成フィルタ回路は、前記モード判別回路にて前記再生音声信号が無音状態であると判別された場合のみ動作することを特徴とする。
【0017】
また、前記音源信号計算手段、前記平滑化回路及び前記合成フィルタ回路は、前記モード判別回路にて前記再生音声信号が無声音状態であると判別された場合のみ動作することを特徴とする。
【0018】
また、符号化された音声信号を復号化する音声復号化装置において、
復号化された再生音声信号が入力され、該再生音声信号を用いてスペクトルパラメータを計算するスペクトルパラメータ計算回路と、
前記再生音声信号と前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータとを用いて音源信号を計算する音源信号計算手段と、
前記再生音声信号または前記音源信号計算手段にて計算された音源信号からピッチ周期を計算し、該ピッチ周期を用いてピッチ予測を行いピッチ予測信号を計算するとともに、前記音源信号から前記ピッチ予測信号を減算することにより残差信号を求めるピッチ予測回路と、
前記ピッチ予測回路にて計算されたピッチ予測信号と残差信号とのうち少なくとも1つのゲインを求めるゲイン計算回路と、
前記前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータと前記ゲイン計算回路にて計算されたゲインとのうち少なくとも1つを時間方向に平滑化して両者を出力する平滑化回路と、
前記平滑化回路から出力されたスペクトルパラメータを用いて合成フィルタを構成し、前記平滑化回路から出力されたゲイン、並びに、前記ピッチ予測信号及び前記残差信号から音源信号を作成し、該音源信号を前記合成フィルタにて合成して音声信号として出力する合成フィルタ回路とを有することを特徴とする。
【0019】
また、前記音源信号計算手段は、前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータを用いて前記再生音声信号を逆フィルタリングすることにより音源信号を計算することを特徴とする。
【0020】
(作用)
上記のように構成された本発明においては、まず、スペクトルパラメータ計算回路において、復号化された再生音声信号を用いてスペクトルパラメータが計算されるとともに、モード判別回路において、再生音声信号の特徴量が求められ、該特徴量に基づいて再生音声信号のモードが判別される。スペクトルパラメータ計算回路にて計算されたスペクトルパラメータは、音源信号計算手段に入力され、音源信号計算手段において、スペクトルパラメータ計算回路にて計算されたスペクトルパラメータを用いて再生音声信号を逆フィルタリングすることにより音源信号が計算され、計算された音源信号は平滑化回路に入力される。平滑化回路においては、音源信号計算手段にて計算された音源信号のレベルとスペクトルパラメータ計算回路にて計算されたスペクトルパラメータとのうちの少なくとも1つが時間方向に平滑化され、両者が出力される。その後、合成フィルタ回路において、平滑化回路から出力されたスペクトルパラメータを用いて合成フィルタが構成され、平滑化回路から出力された音源信号が合成フィルタにて合成され、音声信号として出力される。ここで、音源信号計算手段、平滑化回路及び合成フィルタ回路は、モード判別回路にて再生音声信号が予め決められたモード、例えば、無音状態あるいは無声音状態であると判別された場合のみ動作する。
【0021】
このように、音源信号のレベルとスペクトルパラメータとのうちの少なくとも1つが時間方向に平滑化され、平滑化されたものを用いて音声信号が再度合成されているので、従来の音声復号化装置の構成を修正することなく、完全な後処理として上述した一連の処理を追加することにより、符号化ビットレートが低い場合においても、背景雑音部におけるパラメータの局所的な時間変動が抑制され、また、音源信号計算手段、平滑化回路及び合成フィルタ回路が、モード判別回路にて再生音声信号が予め決められたモード、例えば、無音状態あるいは無声音状態であると判別された場合のみ動作するので、音声区間に弊害を与えることなく、符号化ビットレートが低い場合においても、背景雑音部におけるパラメータの局所的な時間変動が抑制される。
【0022】
また、再生音声信号または前記音源信号計算手段にて計算された音源信号からピッチ周期を計算し、該ピッチ周期を用いてピッチ予測を行いピッチ予測信号を計算するとともに、前記音源信号から前記ピッチ予測信号を減算することにより残差信号を求め、ピッチ予測信号と残差信号とのうち少なくとも1つのゲインを求め、平滑化回路において、スペクトルパラメータとゲインとのうち少なくとも1つを時間方向に平滑化し、合成フィルタ回路において、平滑化回路から出力されたスペクトルパラメータを用いて合成フィルタを構成し、平滑化回路から出力されたゲイン、並びに、ピッチ予測信号及び残差信号から音源信号を作成し、該音源信号を合成フィルタにて合成して音声信号として出力する場合は、ゲイン、スペクトルパラメータとパラメータレベルに分離して平滑化することにより、背景雑音部におけるパラメータの局所的な時間変動が一層抑制される。
【0023】
【発明の実施の形態】
以下に、本発明の実施の形態について図面を参照して説明する。
【0024】
(第1の実施の形態)
図1は、本発明の音声復号化装置の第1の実施の形態を示す図であり、復号化された音声信号に対して後処理を行うセクションを示す。
【0025】
本形態は図1に示すように、復号化された再生音声信号d(n)が入力され、再生音声信号d(n)を用いて線形予測分析により予め決められた次数のスペクトルパラメータαi(i=1,・・・,P:例えばP=10次)を計算するスペクトルパラメータ計算回路10と、再生音声信号d(n)とスペクトルパラメータ計算回路10にて計算されたスペクトルパラメータαiとを用いて、再生音声信号d(n)を逆フィルタリングし、それにより音源信号x(n)を計算する音源信号計算手段である逆フィルタ回路20と、逆フィルタ回路20にて計算された音源信号x(n)のRMSとスペクトルパラメータ計算回路10にて計算されたスペクトルパラメータαiとの少なくとも1つを時間方向に平滑化して両者を出力する平滑化回路30と、平滑化回路30から出力されたスペクトルパラメータαiを用いて合成フィルタを構成し、平滑化回路30から出力された音源信号x(n)を合成フィルタにて合成し、音声信号として出力する合成フィルタ回路40とから構成されている。
【0026】
以下に、上記のように構成された音声復号化装置における処理について説明する。
【0027】
まず、復号化された再生音声信号d(n)がスペクトルパラメータ計算回路10に入力されると、スペクトルパラメータ計算回路10において、入力された再生音声信号d(n)を用いて線形予測分析により予め決められた次数のスペクトルパラメータαiが計算される。なお、スペクトルパラメータαiの計算は、周知のLPC分析や、Burg分析等を用いることにより行われる。本形態においては、Burg分析を用いることとする。Burg分析については、中溝著による“信号解析とシステム同定”(コロナ社1988年刊)の82〜87頁等に記載されている。
【0028】
スペクトルパラメータ計算回路10にて計算されたスペクトルパラメータαiは、逆フィルタ回路20及び平滑化回路30にそれぞれ入力される。
【0029】
逆フィルタ回路20においては、再生音声信号d(n)とスペクトルパラメータ計算回路10にて計算されたスペクトルパラメータαiとを用いて、式(1)に従って再生音声信号d(n)が逆フィルタリングされ、それにより音源信号x(n)が計算される。
【0030】
【数1】
【0031】
また、平滑化回路30においては、逆フィルタ回路20にて計算された音源信号x(n)のRMSとスペクトルパラメータ計算回路10にて計算されたスペクトルパラメータαiとの少なくとも1つが時間方向に平滑化され、両者が出力される。ここで、逆フィルタ回路20にて計算された音源信号x(n)のRMS(RMS(m))を平滑化する場合は、以下の式(2)に従って行う。
【0032】
【数2】
【0033】
また、スペクトルパラメータ計算回路10にて計算されたスペクトルパラメータαiを平滑化する場合は、以下の式(3)に従って行う。なお、本形態においては、スペクトルパラメータαiの平滑化は、スペクトルパラメータαiを線形スペクトル(LSP)上にて平滑化した後、スペクトルパラメータαi’に逆変換することにより行う。スペクトルパラメータαiとLSPとの変換及び逆変換は、菅村他による論文“線スペクトル対(LSP)音声分析合成方式による音声情報圧縮”(電子通信学会論文誌、J64−A、pp.599−606、1981年)に記載されている。
【0034】
【数3】
【0035】
その後、合成フィルタ回路40において、平滑化回路30から出力されたスペクトルパラメータαiを用いて合成フィルタが構成され、平滑化回路30から出力された音源信号x(n)が合成フィルタにて合成され、音声信号として出力される。
【0036】
(第2の実施の形態)
図2は、本発明の音声復号化装置の第2の実施の形態を示す図であり、復号化された音声信号に対して後処理を行うセクションを示す。
【0037】
本形態は図2に示すように、図1に示したものに対して、再生音声信号d(n)の特徴量を求め、該特徴量に基づいて再生音声信号d(n)のモードを判別し、判別結果を出力するモード判別回路50が新たに設けられ、逆フィルタ回路20、平滑化回路30及び合成フィルタ回路40が、モード判別回路50から出力された判別結果に基づいて、再生音声信号d(n)が予め決められたモードである場合のみ動作するように構成されている。
【0038】
モード判別回路50においては、まず、再生音声信号d(n)が入力され、以下の式(4)に従って再生音声信号d(n)の特徴量DTが求められる。
【0039】
【数4】
【0040】
その後、モード判別回路50において、求められた特徴量DTが予め決められたしきい値と比較され、それにより、再生音声信号d(n)のモードが判別される。
【0041】
モード判別回路50における判別結果は、逆フィルタ回路20、平滑化回路30及び合成フィルタ回路40に入力され、逆フィルタ回路20、平滑化回路300及び合成フィルタ回路40は、入力された判別結果に基づいて再生音声信号d(n)が予め決められたモード(例えば、無音状態、無声音状態等)の場合のみ、第1の実施の形態にて説明したような動作を行い、また、再生音声信号d(n)が他のモードである場合は動作しない。
【0042】
(第3の実施の形態)
図3は、本発明の音声復号化装置の第3の実施の形態を示す図であり、復号化された音声信号に対して後処理を行うセクションを示す。
【0043】
本形態は図3に示すように、図1に示したものに対して、再生音声信号d(n)または逆フィルタ回路20にて計算された音源信号x(n)のいずれか一方からピッチ周期Tを計算し、ピッチ周期Tを用いてピッチ予測を行ってピッチ予測信号p(n)を計算するとともに、音源信号x(n)からピッチ予測信号p(n)を減算し、残差信号e(n)を求めるピッチ予測回路60と、ピッチ予測回路60にて計算されたピッチ予測信号p(n)と残差信号e(n)との少なくとも1つに対してゲインを求め、該ゲイン、並びにピッチ予測信号p(n)及び残差信号e(n)を平滑化回路30に対して出力するゲイン計算回路70とが設けられ、平滑化回路30が、スペクトルパラメータ計算回路10にて計算されたスペクトルパラメータαiとゲイン計算回路70から出力されたゲインとの少なくとも1つを時間方向に平滑化し、当該スペクトルパラメータαi及びゲイン、並びにピッチ予測信号p(n)及び残差信号e(n)を出力し、合成フィルタ回路40が、平滑化回路30から出力されたスペクトルパラメータαiを用いて合成フィルタを構成し、平滑化回路30から出力されたゲイン、ピッチ予測信号p(n)及び残差信号e(n)から音源信号を作成し、該音源信号を合成フィルタにて合成して音声信号として出力するように構成されている。
【0044】
ピッチ予測回路60においては、式(4)によって求められる特徴量DTの絶対値を最大化するピッチ周期Tが計算され、さらに、ピッチ周期Tを用いてピッチ予測が行われ、ピッチ予測信号p(n)が計算される。また、音源信号x(n)からピッチ予測信号p(n)が減算され、それにより、残差信号e(n)が求められる。
【0045】
その後、ゲイン計算回路70において、ピッチ予測回路60にて計算されたピッチ予測信号p(n)と残差信号e(n)との少なくとも1つに対してゲインが求められ、求められたゲインが出力され、平滑化回路30に入力される。
【0046】
平滑化回路30においては、スペクトルパラメータ計算回路10にて計算されたスペクトルパラメータαiとゲイン計算回路70から出力されたゲインとの少なくとも1つが時間方向に平滑化され、合成フィルタ回路40に対して出力される。
【0047】
合成フィルタ回路40においては、平滑化回路30から出力されたスペクトルパラメータαiを用いて合成フィルタが構成され、また、平滑化回路30から出力されたゲイン、ピッチ予測信号p(n)及び残差信号e(n)から音源信号が作成され、該音源信号が合成フィルタにて合成されて音声信号として出力される。
【0048】
その他の処理においては、第1の実施の形態にて説明したものと同様である。
【0049】
【発明の効果】
以上説明したように本発明においては、再生音声信号からスペクトルパラメータを計算し、さらに逆フィルタリングにより音源信号を求め、音源信号のRMS、スペクトルパラメータのうち少なくとも1つを時間方向に平滑化したものを用いて、音声信号を合成し直す構成としたため、従来の音声復号化装置の構成を修正することなく、完全な後処理として処理を追加することより、符号化ビットレートが低い場合においても、背景雑音部におけるパラメータの局所的な時間変動を抑制することができ、音質的な劣化の少ない合成音声を提供することができる。
【0050】
また、音源信号計算手段、平滑化回路及び合成フィルタ回路が、モード判別回路にて再生音声信号が予め決められたモード、例えば、無音状態あるいは無声音状態であると判別された場合のみ動作するため、音声区間に弊害を与えることなく、符号化ビットレートが低い場合においても、背景雑音部におけるパラメータの局所的な時間変動を抑制することができる。
【0051】
また、音源信号からピッチ周期を計算し、ピッチ予測信号を計算し、音源信号からピッチ予測信号を減算し、残差信号を計算し、少なくとも1つのゲインを計算し、ゲインとスペクトルパラメータとのうち少なくとも1つを時間方向に平滑化して音源信号を構成し、音声信号を合成する構成としたものにおいては、ゲイン、スペクトルパラメータとパラメータレベルとに分離して平滑化することにより、背景雑音部におけるパラメータの局所的な時間変動を一層抑制することができ、音質的な劣化の少ない合成音声を提供することができる。
【図面の簡単な説明】
【図1】本発明の音声復号化装置の第1の実施の形態を示す図である。
【図2】本発明の音声復号化装置の第2の実施の形態を示す図である。
【図3】本発明の音声復号化装置の第3の実施の形態を示す図である。
【符号の説明】
10 スペクトルパラメータ計算回路
20 逆フィルタ回路
30 平滑化回路
40 合成フィルタ回路
50 モード判別回路
60 ピッチ予測回路
70 ゲイン計算回路
Claims (6)
- 符号化された音声信号を復号化する音声復号化装置において、
復号化された再生音声信号が入力され、該再生音声信号を用いてスペクトルパラメータを計算するスペクトルパラメータ計算回路と、
前記再生音声信号と前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータとを用いて音源信号を計算する音源信号計算手段と、
前記音源信号計算手段にて計算された音源信号のレベルと前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータとのうちの少なくとも1つを時間方向に平滑化して両者を出力する平滑化回路と、
前記平滑化回路から出力されたスペクトルパラメータを用いて合成フィルタを構成し、前記平滑化回路から出力された音源信号を前記合成フィルタにて合成し、音声信号として出力する合成フィルタ回路とを有し、
前記音源信号計算手段、前記平滑化回路及び前記合成フィルタ回路は、予め決められた条件下でのみ動作することを特徴とする音声復号化装置。 - 請求項1に記載の音声復号化装置において、
前記再生音声信号の特徴量を求め、該特徴量に基づいて前記再生音声信号のモードを判別するモード判別回路を有し、
前記音源信号計算手段、前記平滑化回路及び前記合成フィルタ回路は、前記モード判別回路にて前記再生音声信号が予め決められたモードであると判別された場合のみ動作することを特徴とする音声復号化装置。 - 請求項2に記載の音声復号化装置において、
前記音源信号計算手段、前記平滑化回路及び前記合成フィルタ回路は、前記モード判別回路にて前記再生音声信号が無音状態であると判別された場合のみ動作することを特徴とする音声復号化装置。 - 請求項2に記載の音声復号化装置において、
前記音源信号計算手段、前記平滑化回路及び前記合成フィルタ回路は、前記モード判別回路にて前記再生音声信号が無声音状態であると判別された場合のみ動作することを特徴とする音声復号化装置。 - 符号化された音声信号を復号化する音声復号化装置において、
復号化された再生音声信号が入力され、該再生音声信号を用いてスペクトルパラメータを計算するスペクトルパラメータ計算回路と、
前記再生音声信号と前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータとを用いて音源信号を計算する音源信号計算手段と、
前記再生音声信号または前記音源信号計算手段にて計算された音源信号からピッチ周期を計算し、該ピッチ周期を用いてピッチ予測を行いピッチ予測信号を計算するとともに、前記音源信号から前記ピッチ予測信号を減算することにより残差信号を求めるピッチ予測回路と、
前記ピッチ予測回路にて計算されたピッチ予測信号と残差信号とのうち少なくとも1つのゲインを求めるゲイン計算回路と、
前記前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータと前記ゲイン計算回路にて計算されたゲインとのうち少なくとも1つを時間方向に平滑化して両者を出力する平滑化回路と、
前記平滑化回路から出力されたスペクトルパラメータを用いて合成フィルタを構成し、前記平滑化回路から出力されたゲイン、並びに、前記ピッチ予測信号及び前記残差信号から音源信号を作成し、該音源信号を前記合成フィルタにて合成して音声信号として出力する合成フィルタ回路とを有することを特徴とする音声復号化装置。 - 請求項1乃至5のいずれか1項に記載の音声復号化装置において、
前記音源信号計算手段は、前記スペクトルパラメータ計算回路にて計算されたスペクトルパラメータを用いて前記再生音声信号を逆フィルタリングすることにより音源信号を計算することを特徴とする音声復号化装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000337805A JP3558031B2 (ja) | 2000-11-06 | 2000-11-06 | 音声復号化装置 |
CNB011344997A CN1145144C (zh) | 2000-11-06 | 2001-11-06 | 对背景噪音信号进行高质量解码的语音解码器 |
DE60109111T DE60109111T2 (de) | 2000-11-06 | 2001-11-06 | Sprachdekoder zum hochqualitativen Dekodieren von Signalen mit Hintergrundrauschen |
EP01125496A EP1204092B1 (en) | 2000-11-06 | 2001-11-06 | Speech decoder capable of decoding background noise signal with high quality |
US09/985,853 US7024354B2 (en) | 2000-11-06 | 2001-11-06 | Speech decoder capable of decoding background noise signal with high quality |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000337805A JP3558031B2 (ja) | 2000-11-06 | 2000-11-06 | 音声復号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002140099A JP2002140099A (ja) | 2002-05-17 |
JP3558031B2 true JP3558031B2 (ja) | 2004-08-25 |
Family
ID=18813128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000337805A Expired - Fee Related JP3558031B2 (ja) | 2000-11-06 | 2000-11-06 | 音声復号化装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7024354B2 (ja) |
EP (1) | EP1204092B1 (ja) |
JP (1) | JP3558031B2 (ja) |
CN (1) | CN1145144C (ja) |
DE (1) | DE60109111T2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
US7778826B2 (en) | 2005-01-13 | 2010-08-17 | Intel Corporation | Beamforming codebook generation system and associated methods |
EP1864281A1 (en) * | 2005-04-01 | 2007-12-12 | QUALCOMM Incorporated | Systems, methods, and apparatus for highband burst suppression |
PL1875463T3 (pl) * | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
ES2548010T3 (es) | 2007-03-05 | 2015-10-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Procedimiento y dispositivo para suavizar ruido de fondo estacionario |
CN101266798B (zh) * | 2007-03-12 | 2011-06-15 | 华为技术有限公司 | 一种在语音解码器中进行增益平滑的方法及装置 |
US7822833B2 (en) * | 2008-04-30 | 2010-10-26 | Honeywell International Inc. | System for creating and validating configurations of offline field devices in a process control system |
US8108200B2 (en) * | 2008-05-20 | 2012-01-31 | Honeywell International Inc. | System and method for accessing and configuring field devices in a process control system using distributed control components |
US7983892B2 (en) * | 2008-05-20 | 2011-07-19 | Honeywell International Inc. | System and method for accessing and presenting health information for field devices in a process control system |
US8731895B2 (en) * | 2008-05-20 | 2014-05-20 | Honeywell International Inc. | System and method for accessing and configuring field devices in a process control system |
CN107369455B (zh) * | 2014-03-21 | 2020-12-15 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
US11714394B2 (en) * | 2018-09-28 | 2023-08-01 | Fisher-Rosemount Systems, Inc | Bulk commissioning of field devices within a process plant |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01267700A (ja) | 1988-04-20 | 1989-10-25 | Nec Corp | 音声処理装置 |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
GB9512284D0 (en) * | 1995-06-16 | 1995-08-16 | Nokia Mobile Phones Ltd | Speech Synthesiser |
JP2806308B2 (ja) * | 1995-06-30 | 1998-09-30 | 日本電気株式会社 | 音声復号化装置 |
JPH0954600A (ja) | 1995-08-14 | 1997-02-25 | Toshiba Corp | 音声符号化通信装置 |
JPH09244695A (ja) | 1996-03-04 | 1997-09-19 | Kobe Steel Ltd | 音声符号化装置及び復号化装置 |
GB2312360B (en) | 1996-04-12 | 2001-01-24 | Olympus Optical Co | Voice signal coding apparatus |
JP3270922B2 (ja) | 1996-09-09 | 2002-04-02 | 富士通株式会社 | 符号化,復号化方法及び符号化,復号化装置 |
JPH10171497A (ja) | 1996-12-12 | 1998-06-26 | Oki Electric Ind Co Ltd | 背景雑音除去装置 |
JPH10247098A (ja) * | 1997-03-04 | 1998-09-14 | Mitsubishi Electric Corp | 可変レート音声符号化方法、可変レート音声復号化方法 |
CN1192358C (zh) * | 1997-12-08 | 2005-03-09 | 三菱电机株式会社 | 声音信号加工方法和声音信号加工装置 |
JPH11175083A (ja) | 1997-12-16 | 1999-07-02 | Mitsubishi Electric Corp | 雑音らしさ算出方法および雑音らしさ算出装置 |
GB9811019D0 (en) * | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
JP4308345B2 (ja) * | 1998-08-21 | 2009-08-05 | パナソニック株式会社 | マルチモード音声符号化装置及び復号化装置 |
US6556966B1 (en) * | 1998-08-24 | 2003-04-29 | Conexant Systems, Inc. | Codebook structure for changeable pulse multimode speech coding |
JP4295372B2 (ja) | 1998-09-11 | 2009-07-15 | パナソニック株式会社 | 音声符号化装置 |
JP3490324B2 (ja) | 1999-02-15 | 2004-01-26 | 日本電信電話株式会社 | 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体 |
JP3478209B2 (ja) * | 1999-11-01 | 2003-12-15 | 日本電気株式会社 | 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体 |
-
2000
- 2000-11-06 JP JP2000337805A patent/JP3558031B2/ja not_active Expired - Fee Related
-
2001
- 2001-11-06 EP EP01125496A patent/EP1204092B1/en not_active Expired - Lifetime
- 2001-11-06 DE DE60109111T patent/DE60109111T2/de not_active Expired - Lifetime
- 2001-11-06 CN CNB011344997A patent/CN1145144C/zh not_active Expired - Fee Related
- 2001-11-06 US US09/985,853 patent/US7024354B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US20020087308A1 (en) | 2002-07-04 |
CN1145144C (zh) | 2004-04-07 |
EP1204092B1 (en) | 2005-03-02 |
JP2002140099A (ja) | 2002-05-17 |
US7024354B2 (en) | 2006-04-04 |
EP1204092A2 (en) | 2002-05-08 |
CN1352451A (zh) | 2002-06-05 |
DE60109111T2 (de) | 2006-04-13 |
EP1204092A3 (en) | 2003-11-19 |
DE60109111D1 (de) | 2005-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2940005B2 (ja) | 音声符号化装置 | |
JP3180762B2 (ja) | 音声符号化装置及び音声復号化装置 | |
US6385576B2 (en) | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch | |
JP3558031B2 (ja) | 音声復号化装置 | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JPH0782360B2 (ja) | 音声分析合成方法 | |
JP2538450B2 (ja) | 音声の励振信号符号化・復号化方法 | |
JP4438280B2 (ja) | トランスコーダ及び符号変換方法 | |
JP3003531B2 (ja) | 音声符号化装置 | |
JP3559485B2 (ja) | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 | |
JP2001051699A (ja) | 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体 | |
JP3299099B2 (ja) | 音声符号化装置 | |
JP3144284B2 (ja) | 音声符号化装置 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP3510168B2 (ja) | 音声符号化方法及び音声復号化方法 | |
JP3552201B2 (ja) | 音声符号化方法および装置 | |
JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
JP2853170B2 (ja) | 音声符号化復号化方式 | |
JP2004151423A (ja) | 帯域拡張装置及び方法 | |
JP3984048B2 (ja) | 音声/音響信号の符号化方法及び電子装置 | |
JPH0519796A (ja) | 音声の励振信号符号化・復号化方法 | |
JP3468862B2 (ja) | 音声符号化装置 | |
JP3144244B2 (ja) | 音声符号化装置 | |
JPH02160300A (ja) | 音声符号化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040510 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3558031 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090528 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100528 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110528 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110528 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120528 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120528 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140528 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |