JPWO2014034697A1 - 復号方法、復号装置、プログラム、及びその記録媒体 - Google Patents
復号方法、復号装置、プログラム、及びその記録媒体 Download PDFInfo
- Publication number
- JPWO2014034697A1 JPWO2014034697A1 JP2014533035A JP2014533035A JPWO2014034697A1 JP WO2014034697 A1 JPWO2014034697 A1 JP WO2014034697A1 JP 2014533035 A JP2014533035 A JP 2014533035A JP 2014533035 A JP2014533035 A JP 2014533035A JP WO2014034697 A1 JPWO2014034697 A1 JP WO2014034697A1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- noise
- decoded speech
- decoding
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000003595 spectral effect Effects 0.000 claims abstract description 17
- 230000005236 sound signal Effects 0.000 claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims description 24
- 230000002708 enhancing effect Effects 0.000 claims 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 42
- 230000005284 excitation Effects 0.000 description 37
- 230000015572 biosynthetic process Effects 0.000 description 33
- 238000003786 synthesis reaction Methods 0.000 description 33
- 239000013598 vector Substances 0.000 description 33
- 238000004364 calculation method Methods 0.000 description 17
- 238000012986 modification Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 238000012805 post-processing Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000000926 separation method Methods 0.000 description 12
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
CELP系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても自然な再生音を実現できる復号方法を提供することを目的とする。入力された符号から復号音声信号を得る音声復号ステップと、ランダムな信号である雑音信号を生成する雑音生成ステップと、過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を雑音信号に対して行って得られる信号と、復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする雑音付加ステップとを含む。
Description
本発明は、例えば音声や音楽などの音響、映像等の信号系列を少ない情報量でディジタル符号化した符号を復号する復号方法、復号装置、プログラム、及びその記録媒体に関する。
現在、音声を高能率に符号化する方法として、例えば、入力信号(特に音声)に含まれる5〜200ms程度の一定間隔の各区間(フレーム)の入力信号系列を処理対象とし、その1フレームの音声を、周波数スペクトルの包絡特性を表す線形フィルタの特性と、そのフィルタを駆動するための駆動音源信号との2つの情報に分離し、それぞれを符号化する手法が提案されている。この手法における駆動音源信号を符号化する方法として、音声のピッチ周期(基本周波数)に対応すると考えられる周期成分と、それ以外の成分に分離して符号化する符号駆動線形予測符号化(Code−Excited_Linear_Prediction:CELP)が知られている(非特許文献1)。
図1、図2を参照して従来技術の符号化装置1について説明する。図1は従来技術の符号化装置1の構成を示すブロック図である。図2は、従来技術の符号化装置1の動作を示すフローチャートである。図1に示すように、符号化装置1は線形予測分析部101と、線形予測係数符号化部102と、合成フィルタ部103と、波形歪み計算部104と、符号帳検索制御部105と、ゲイン符号帳部106と、駆動音源ベクトル生成部107と、合成部108とを備える。以下、符号化装置1の各構成部の動作について説明する。
<線形予測分析部101>
線形予測分析部101には、時間領域の入力信号x(n)(n=0,…,L−1,Lは1以上の整数)に含まれる連続する複数サンプルからなるフレーム単位の入力信号系列xF(n)が入力される。線形予測分析部101は、入力信号系列xF(n)を取得して、入力音声の周波数スペクトル包絡特性を表す線形予測係数a(i)(iは予測次数、i=1,…,P,Pは1以上の整数)を計算する(S101)。線形予測分析部101は非線形なものに置き換えてもよい。
線形予測分析部101には、時間領域の入力信号x(n)(n=0,…,L−1,Lは1以上の整数)に含まれる連続する複数サンプルからなるフレーム単位の入力信号系列xF(n)が入力される。線形予測分析部101は、入力信号系列xF(n)を取得して、入力音声の周波数スペクトル包絡特性を表す線形予測係数a(i)(iは予測次数、i=1,…,P,Pは1以上の整数)を計算する(S101)。線形予測分析部101は非線形なものに置き換えてもよい。
<線形予測係数符号化部102>
線形予測係数符号化部102は、線形予測係数a(i)を取得して、当該線形予測係数a(i)を量子化および符号化して、合成フィルタ係数a^(i)と線形予測係数符号を生成、出力する(S102)。なお、a^(i)は、a(i)の上付きハットを意味する。線形予測係数符号化部102は非線形なものに置き換えてもよい。
線形予測係数符号化部102は、線形予測係数a(i)を取得して、当該線形予測係数a(i)を量子化および符号化して、合成フィルタ係数a^(i)と線形予測係数符号を生成、出力する(S102)。なお、a^(i)は、a(i)の上付きハットを意味する。線形予測係数符号化部102は非線形なものに置き換えてもよい。
<合成フィルタ部103>
合成フィルタ部103は、合成フィルタ係数a^(i)と、後述する駆動音源ベクトル生成部107が生成する駆動音源ベクトル候補c(n)とを取得する。合成フィルタ部103は、駆動音源ベクトル候補c(n)に合成フィルタ係数a^(i)をフィルタの係数とする線形フィルタ処理を行い、入力信号候補xF^(n)を生成、出力する(S103)。なお、x^は、xの上付きハットを意味する。合成フィルタ部103は非線形なものに置き換えてもよい。
合成フィルタ部103は、合成フィルタ係数a^(i)と、後述する駆動音源ベクトル生成部107が生成する駆動音源ベクトル候補c(n)とを取得する。合成フィルタ部103は、駆動音源ベクトル候補c(n)に合成フィルタ係数a^(i)をフィルタの係数とする線形フィルタ処理を行い、入力信号候補xF^(n)を生成、出力する(S103)。なお、x^は、xの上付きハットを意味する。合成フィルタ部103は非線形なものに置き換えてもよい。
<波形歪み計算部104>
波形歪み計算部104は、入力信号系列xF(n)と線形予測係数a(i)と入力信号候補xF^(n)とを取得する。波形歪み計算部104は、入力信号系列xF(n)と入力信号候補xF^(n)の歪みdを計算する(S104)。歪み計算は、線形予測係数a(i)(または合成フィルタ係数a^(i))を考慮にいれて行われることが多い。
波形歪み計算部104は、入力信号系列xF(n)と線形予測係数a(i)と入力信号候補xF^(n)とを取得する。波形歪み計算部104は、入力信号系列xF(n)と入力信号候補xF^(n)の歪みdを計算する(S104)。歪み計算は、線形予測係数a(i)(または合成フィルタ係数a^(i))を考慮にいれて行われることが多い。
<符号帳検索制御部105>
符号帳検索制御部105は、歪みdを取得して、駆動音源符号、すなわち後述するゲイン符号帳部106および駆動音源ベクトル生成部107で用いるゲイン符号、周期符号および固定(雑音)符号を選択、出力する(S105A)。ここで、歪みdが最小、または最小に準ずる値であれば(S105BY)、ステップS108に遷移して、後述する合成部108が動作を実行する。一方、歪みdが最小、または最小に準ずる値でなければ(S105BN)、ステップS106、S107、S103、S104が順次実行されて、本構成部の動作であるステップS105Aに帰還する。従って、ステップS105BNの分岐に入る限り、ステップS106、S107、S103、S104、S105Aが繰り返し実行されることで、符号帳検索制御部105は、最終的に入力信号系列xF(n)と入力信号候補xF^(n)の歪みdが最小または最小に準ずるような駆動音源符号を選択、出力する(S105BY)。
符号帳検索制御部105は、歪みdを取得して、駆動音源符号、すなわち後述するゲイン符号帳部106および駆動音源ベクトル生成部107で用いるゲイン符号、周期符号および固定(雑音)符号を選択、出力する(S105A)。ここで、歪みdが最小、または最小に準ずる値であれば(S105BY)、ステップS108に遷移して、後述する合成部108が動作を実行する。一方、歪みdが最小、または最小に準ずる値でなければ(S105BN)、ステップS106、S107、S103、S104が順次実行されて、本構成部の動作であるステップS105Aに帰還する。従って、ステップS105BNの分岐に入る限り、ステップS106、S107、S103、S104、S105Aが繰り返し実行されることで、符号帳検索制御部105は、最終的に入力信号系列xF(n)と入力信号候補xF^(n)の歪みdが最小または最小に準ずるような駆動音源符号を選択、出力する(S105BY)。
<ゲイン符号帳部106>
ゲイン符号帳部106は、駆動音源符号を取得して、駆動音源符号中のゲイン符号により量子化ゲイン(ゲイン候補)ga,grを出力する(S106)。
ゲイン符号帳部106は、駆動音源符号を取得して、駆動音源符号中のゲイン符号により量子化ゲイン(ゲイン候補)ga,grを出力する(S106)。
<駆動音源ベクトル生成部107>
駆動音源ベクトル生成部107は、駆動音源符号と量子化ゲイン(ゲイン候補)ga,grを取得して、駆動音源符号に含まれる周期符号および固定符号により、1フレーム分の長さの駆動音源ベクトル候補c(n)を生成する(S107)。駆動音源ベクトル生成部107は、一般に、図に示していない適応符号帳と固定符号帳から構成されることが多い。適応符号帳は、周期符号に基づき、バッファに記憶された直前の過去の駆動音源ベクトル(既に量子化された直前の1〜数フレーム分の駆動音源ベクトル)を、ある周期に相当する長さで切り出し、その切り出したベクトルをフレームの長さになるまで繰り返すことによって、音声の周期成分に対応する時系列ベクトルの候補を生成、出力する。上記「ある周期」として、適応符号帳は波形歪み計算部104における歪みdが小さくなるような周期が選択する。選択された周期は、一般には音声のピッチ周期に相当することが多い。固定符号帳は、固定符号に基づき、音声の非周期成分に対応する1フレーム分の長さの時系列符号ベクトルの候補を生成、出力する。これらの候補は入力音声とは独立に符号化のためのビット数に応じて、あらかじめ指定された数の候補ベクトルを記憶したうちの1つであったり、あらかじめ決められた生成規則によってパルスを配置して生成されたベクトルの1つであったりする。なお、固定符号帳は、本来音声の非周期成分に対応するものであるが、特に母音区間など、ピッチ周期性の強い音声区間では、上記あらかじめ用意された候補ベクトルに、ピッチ周期または適応符号帳で用いるピッチに対応する周期を持つ櫛形フィルタをかけたり、適応符号帳での処理と同様にベクトルを切り出して繰り返したりして固定符号ベクトルとすることもある。駆動音源ベクトル生成部107は、適応符号帳および固定符号帳から出力された時系列ベクトルの候補ca(n)およびcr(n)にゲイン符号帳部23から出力されるゲイン候補ga,grを乗算して加算し、駆動音源ベクトルの候補c(n)を生成する。実際の動作中には適応符号帳のみまたは固定符号帳のみが用いられる場合もある。
駆動音源ベクトル生成部107は、駆動音源符号と量子化ゲイン(ゲイン候補)ga,grを取得して、駆動音源符号に含まれる周期符号および固定符号により、1フレーム分の長さの駆動音源ベクトル候補c(n)を生成する(S107)。駆動音源ベクトル生成部107は、一般に、図に示していない適応符号帳と固定符号帳から構成されることが多い。適応符号帳は、周期符号に基づき、バッファに記憶された直前の過去の駆動音源ベクトル(既に量子化された直前の1〜数フレーム分の駆動音源ベクトル)を、ある周期に相当する長さで切り出し、その切り出したベクトルをフレームの長さになるまで繰り返すことによって、音声の周期成分に対応する時系列ベクトルの候補を生成、出力する。上記「ある周期」として、適応符号帳は波形歪み計算部104における歪みdが小さくなるような周期が選択する。選択された周期は、一般には音声のピッチ周期に相当することが多い。固定符号帳は、固定符号に基づき、音声の非周期成分に対応する1フレーム分の長さの時系列符号ベクトルの候補を生成、出力する。これらの候補は入力音声とは独立に符号化のためのビット数に応じて、あらかじめ指定された数の候補ベクトルを記憶したうちの1つであったり、あらかじめ決められた生成規則によってパルスを配置して生成されたベクトルの1つであったりする。なお、固定符号帳は、本来音声の非周期成分に対応するものであるが、特に母音区間など、ピッチ周期性の強い音声区間では、上記あらかじめ用意された候補ベクトルに、ピッチ周期または適応符号帳で用いるピッチに対応する周期を持つ櫛形フィルタをかけたり、適応符号帳での処理と同様にベクトルを切り出して繰り返したりして固定符号ベクトルとすることもある。駆動音源ベクトル生成部107は、適応符号帳および固定符号帳から出力された時系列ベクトルの候補ca(n)およびcr(n)にゲイン符号帳部23から出力されるゲイン候補ga,grを乗算して加算し、駆動音源ベクトルの候補c(n)を生成する。実際の動作中には適応符号帳のみまたは固定符号帳のみが用いられる場合もある。
<合成部108>
合成部108は、線形予測係数符号と駆動音源符号とを取得して、線形予測係数符号と駆動音源符号をまとめた符号を生成、出力する(S108)。符号は復号装置2へ伝送される。
合成部108は、線形予測係数符号と駆動音源符号とを取得して、線形予測係数符号と駆動音源符号をまとめた符号を生成、出力する(S108)。符号は復号装置2へ伝送される。
次に、図3、図4を参照して従来技術の復号装置2について説明する。図3は符号化装置1に対応する従来技術の復号装置2の構成を示すブロック図である。図4は従来技術の復号装置2の動作を示すフローチャートである。図3に示すように、復号装置2は、分離部109と、線形予測係数復号部110と、合成フィルタ部111と、ゲイン符号帳部112と、駆動音源ベクトル生成部113と、後処理部114とを備える。以下、復号装置2の各構成部の動作について説明する。
<分離部109>
符号化装置1から送信された符号は復号装置2に入力される。分離部109は符号を取得して、当該符号から、線形予測係数符号と、駆動音源符号とを分離して取り出す(S109)。
符号化装置1から送信された符号は復号装置2に入力される。分離部109は符号を取得して、当該符号から、線形予測係数符号と、駆動音源符号とを分離して取り出す(S109)。
<線形予測係数復号部110>
線形予測係数復号部110は、線形予測係数符号を取得して、線形予測係数符号化部102が行う符号化方法と対応する復号方法により、線形予測係数符号から合成フィルタ係数a^(i)を復号する(S110)。
線形予測係数復号部110は、線形予測係数符号を取得して、線形予測係数符号化部102が行う符号化方法と対応する復号方法により、線形予測係数符号から合成フィルタ係数a^(i)を復号する(S110)。
<合成フィルタ部111>
合成フィルタ部111は、前述した合成フィルタ部103と同じ動作をする。従って、合成フィルタ部111は、合成フィルタ係数a^(i)と、駆動音源ベクトルc(n)とを取得する。合成フィルタ部111は、駆動音源ベクトルc(n)に合成フィルタ係数a^(i)をフィルタの係数とする線形フィルタ処理を行い、xF^(n)(復号装置においては、合成信号系列xF^(n)と呼ぶものとする)を生成、出力する(S111)。
合成フィルタ部111は、前述した合成フィルタ部103と同じ動作をする。従って、合成フィルタ部111は、合成フィルタ係数a^(i)と、駆動音源ベクトルc(n)とを取得する。合成フィルタ部111は、駆動音源ベクトルc(n)に合成フィルタ係数a^(i)をフィルタの係数とする線形フィルタ処理を行い、xF^(n)(復号装置においては、合成信号系列xF^(n)と呼ぶものとする)を生成、出力する(S111)。
<ゲイン符号帳部112>
ゲイン符号帳部112は、前述したゲイン符合帳部106と同じ動作をする。従って、ゲイン符号帳部112は、駆動音源符号を取得して、駆動音源符号中のゲイン符号によりga,gr(復号装置においては、復号ゲインga,grと呼ぶものとする)を生成、出力する(S112)。
ゲイン符号帳部112は、前述したゲイン符合帳部106と同じ動作をする。従って、ゲイン符号帳部112は、駆動音源符号を取得して、駆動音源符号中のゲイン符号によりga,gr(復号装置においては、復号ゲインga,grと呼ぶものとする)を生成、出力する(S112)。
<駆動音源ベクトル生成部113>
駆動音源ベクトル生成部113は、前述した駆動音源ベクトル生成部107と同じ動作をする。従って、駆動音源ベクトル生成部113は、駆動音源符号と復号ゲインga,grを取得して、駆動音源符号に含まれる周期符号および固定符号により、1フレーム分の長さのc(n)(復号装置においては、駆動音源ベクトルc(n)と呼ぶものとする)を生成、出力する(S113)。
駆動音源ベクトル生成部113は、前述した駆動音源ベクトル生成部107と同じ動作をする。従って、駆動音源ベクトル生成部113は、駆動音源符号と復号ゲインga,grを取得して、駆動音源符号に含まれる周期符号および固定符号により、1フレーム分の長さのc(n)(復号装置においては、駆動音源ベクトルc(n)と呼ぶものとする)を生成、出力する(S113)。
<後処理部114>
後処理部114は、合成信号系列xF^(n)を取得する。後処理部114は、スペクトル強調やピッチ強調の処理を合成信号系列xF^(n)に施し、量子化ノイズを聴覚的に低減させた出力信号系列zF(n)を生成、出力する(S114)。
後処理部114は、合成信号系列xF^(n)を取得する。後処理部114は、スペクトル強調やピッチ強調の処理を合成信号系列xF^(n)に施し、量子化ノイズを聴覚的に低減させた出力信号系列zF(n)を生成、出力する(S114)。
M.R. Schroeder and B.S. Atal,"Code-Excited Linear Prediction(CELP):High Quality Speech at Very Low Bit Rates",IEEE Proc. ICASSP-85,pp.937-940,1985.
このようなCELP系符号化方式をはじめとする音声の生成モデルに基づく符号化方式は、少ない情報量で高品質な符号化を実現することができるが、オフィスや街頭など、背景雑音のある環境で録音された音声(以下、「雑音重畳音声」と言う。)が入力されると、背景雑音は音声とは性質が異なるため、モデルに当てはまらないことによる量子化歪みが発生し、不快な音が知覚される問題があった。そこで本発明では、CELP系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても自然な再生音を実現できる復号方法を提供することを目的とする。
本発明の復号方法は、音声復号ステップと、雑音生成ステップと雑音付加ステップとを含む。音声復号ステップにおいて、入力された符号から復号音声信号を得る。雑音生成ステップにおいて、ランダムな信号である雑音信号を生成する。雑音付加ステップにおいて、過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を前記雑音信号に対して行って得られる信号と、前記復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする。
本発明の復号方法によれば、CELP系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても、モデルに当てはまらないことによる量子化歪みがマスクされることで不快な音が知覚されづらくなり、より自然な再生音を実現できる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図5から図8を参照して実施例1の符号化装置3について説明する。図5は本実施例の符号化装置3の構成を示すブロック図である。図6は本実施例の符号化装置3の動作を示すフローチャートである。図7は本実施例の符号化装置3の制御部215の構成を示すブロック図である。図8は本実施例の符号化装置3の制御部215の動作を示すフローチャートである。
図5に示す通り、本実施例の符号化装置3は、線形予測分析部101と、線形予測係数符号化部102と、合成フィルタ部103と、波形歪み計算部104と、符号帳検索制御部105と、ゲイン符号帳部106と、駆動音源ベクトル生成部107と、合成部208と、制御部215とを備える。従来技術の符号化装置1との差分は、従来例における合成部108が本実施例において合成部208となっている点、制御部215が加えられた点のみである。従って、従来技術の符号化装置1と共通する番号を備える各構成部の動作については前述したとおりであるから説明を割愛する。以下、従来技術との差分である制御部215、合成部208の動作について説明する。
<制御部215>
制御部215は、フレーム単位の入力信号系列xF(n)を取得して、制御情報符号を生成する(S215)。より詳細には、制御部215は、図7に示すように、ローパスフィルタ部2151、パワー加算部2152、メモリ2153、フラグ付与部2154、音声区間検出部2155を備える。ローパスフィルタ部2151は、連続する複数サンプルからなるフレーム単位の入力信号系列xF(n)(1フレームを0〜L−1のL点の信号系列とする)を取得して、入力信号系列xF(n)をローパスフィルタ(低域通過フィルタ)を用いてフィルタリング処理して低域通過入力信号系列xLPF(n)を生成、出力する(SS2151)。フィルタリング処理には、無限インパルス応答(IIR:Infinite_Impulse_Response)フィルタと有限インパルス応答(FIR:Finite_Impulse_Response)フィルタのどちらを用いてもよい。またそれ以外のフィルタリング処理方法であってもよい。
制御部215は、フレーム単位の入力信号系列xF(n)を取得して、制御情報符号を生成する(S215)。より詳細には、制御部215は、図7に示すように、ローパスフィルタ部2151、パワー加算部2152、メモリ2153、フラグ付与部2154、音声区間検出部2155を備える。ローパスフィルタ部2151は、連続する複数サンプルからなるフレーム単位の入力信号系列xF(n)(1フレームを0〜L−1のL点の信号系列とする)を取得して、入力信号系列xF(n)をローパスフィルタ(低域通過フィルタ)を用いてフィルタリング処理して低域通過入力信号系列xLPF(n)を生成、出力する(SS2151)。フィルタリング処理には、無限インパルス応答(IIR:Infinite_Impulse_Response)フィルタと有限インパルス応答(FIR:Finite_Impulse_Response)フィルタのどちらを用いてもよい。またそれ以外のフィルタリング処理方法であってもよい。
パワー加算部2152は、計算した低域通過信号エネルギーを、過去の所定フレーム数M(例えばM=5)に渡りメモリ2153に記憶する(SS2152)。例えば、パワー加算部2152は、現在のフレームより1フレーム過去からのMフレーム過去のフレームまでの低域通過信号エネルギーをeLPF(1)〜eLPF(M)としてメモリ2153に記憶する。
次に、フラグ付与部2154は、現フレームが音声が発話された区間(以下、「音声区間」と称す)であるか否かを検出し、音声区間検出フラグclas(0)に値を代入する(SS2154)。例えば、音声区間ならばclas(0)=1、音声区間でないならばclas(0)=0とする。音声区間検出には、一般的に用いられているVAD(Voice_Activity_Detection)法でもよいし、音声区間が検出できればそれ以外の方法でもよい。また、音声区間検出は母音区間を検出するものであってもよい。VAD法は例えば、ITU−T_G.729_Annex_B(参考非特許文献1)などで無音部分を検出して情報圧縮するために用いられている。
フラグ付与部2154は、音声区間検出フラグclasを、過去の所定フレーム数N(例えばN=5)に渡りメモリ2153に記憶する(SS2152)。例えば、フラグ付与部2154は、現在のフレームより1フレーム過去からのNフレーム過去のフレームまでの音声区間検出フラグをclas(1)〜clas(N)としてメモリ2153に記憶する。
(参考非特許文献1)A Benyassine, E Shlomot, H-Y Su, D Massaloux, C Lamblin, J-P Petit, ITU-T recommendation G.729 Annex B: a silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications. IEEE Communications Magazine 35(9), 64-73 (1997).
次に、音声区間検出部2155は、低域通過信号エネルギーeLPF(0)〜eLPF(M)および音声区間検出フラグclas(0)〜clas(N)を用いて音声区間検出を行う(SS2155)。具体的には、音声区間検出部2155は、低域通過信号エネルギーeLPF(0)〜eLPF(M)の全てのパラメータが所定の閾値より大きく、音声区間検出フラグclas(0)〜clas(N)の全てのパラメータが0である(音声区間でないまたは母音区間でない)とき、現フレームの信号のカテゴリが雑音重畳音声であることを示す値(制御情報)を制御情報符号として生成し、合成部208に出力する(SS2155)。上記条件に当てはまらない場合は、1フレーム過去の制御情報を引き継ぐ。つまり、1フレーム過去の入力信号系列が雑音重畳音声であれば、現フレームも雑音重畳音声であるとし、1フレーム過去が雑音重畳音声でないとすれば、現フレームも雑音重畳音声でないとする。制御情報の初期値は雑音重畳音声を示す値であってもよいし、そうでなくてもよい。例えば、制御情報は、入力信号系列が雑音重畳音声かそうでないかの2値(1ビット)で出力される。
<合成部208>
合成部208の動作は入力に制御情報符号が加わったこと以外は合成部108と同じである。従って、合成部208は、制御情報符号と、線形予測符号と、駆動音源符号とを取得して、これらをまとめて符号を生成する(S208)。
合成部208の動作は入力に制御情報符号が加わったこと以外は合成部108と同じである。従って、合成部208は、制御情報符号と、線形予測符号と、駆動音源符号とを取得して、これらをまとめて符号を生成する(S208)。
次に、図9から図12を参照して実施例1の復号装置4について説明する。図9は本実施例およびその変形例の復号装置4(4’)の構成を示すブロック図である。図10は本実施例およびその変形例の復号装置4(4’)の動作を示すフローチャートである。図11は本実施例およびその変形例の復号装置4の雑音付加部216の構成を示すブロック図である。図12は本実施例およびその変形例の復号装置4の雑音付加部216の動作を示すフローチャートである。
図9に示す通り、本実施例の復号装置4は、分離部209と、線形予測係数復号部110と、合成フィルタ部111と、ゲイン符号帳部112と、駆動音源ベクトル生成部113と、後処理部214と、雑音付加部216と、雑音ゲイン計算部217とを備える。従来技術の復号装置3との差分は、従来例における分離部109が本実施例において分離部209となっている点、従来例における後処理部114が本実施例において後処理部214となっている点、雑音付加部216、雑音ゲイン計算部217が加えられた点のみである。従って、従来技術の復号装置2と共通する番号を備える各構成部の動作については前述したとおりであるから説明を割愛する。以下、従来技術との差分である分離部209、雑音ゲイン計算部217、雑音付加部216、後処理部214の動作について説明する。
<分離部209>
分離部209の動作は、出力に制御情報符号が加わった以外、分離部109と同じである。従って、分離部209は、符号化装置3から符号を取得して、当該符号から制御情報符号と、線形予測係数符号と、駆動音源符号とを分離して取り出す(S209)。以下、ステップS112、S113、S110、S111が実行される。
分離部209の動作は、出力に制御情報符号が加わった以外、分離部109と同じである。従って、分離部209は、符号化装置3から符号を取得して、当該符号から制御情報符号と、線形予測係数符号と、駆動音源符号とを分離して取り出す(S209)。以下、ステップS112、S113、S110、S111が実行される。
<雑音ゲイン計算部217>
次に、雑音ゲイン計算部217は、合成信号系列xF^(n)を取得して、現在のフレームが雑音区間などの音声区間でない区間であれば、例えば次式を用いて雑音ゲインgnを計算する(S217)。
過去フレームで求めた雑音ゲインを用いた指数平均により雑音ゲインgnを次式で更新してもよい。
雑音ゲインgnの初期値は0等の所定の値であってもよいし、あるフレームの合成信号系列xF^(n)から求めた値であってもよい。εは0<ε≦1を満たす忘却係数であり、指数関数的な減衰の時定数を決定する。例えばε=0.6として、雑音ゲインgnを更新する。雑音ゲインgnの計算式は式(4)や式(5)であってもよい。
現在のフレームが雑音区間などの音声区間でない区間かどうかの検出には、非特許文献2などの一般的に用いられているVAD(Voice_Activity_Detection)法でもよいし、音声区間でない区間が検出できればそれ以外の方法でもよい。
次に、雑音ゲイン計算部217は、合成信号系列xF^(n)を取得して、現在のフレームが雑音区間などの音声区間でない区間であれば、例えば次式を用いて雑音ゲインgnを計算する(S217)。
雑音ゲインgnの初期値は0等の所定の値であってもよいし、あるフレームの合成信号系列xF^(n)から求めた値であってもよい。εは0<ε≦1を満たす忘却係数であり、指数関数的な減衰の時定数を決定する。例えばε=0.6として、雑音ゲインgnを更新する。雑音ゲインgnの計算式は式(4)や式(5)であってもよい。
現在のフレームが雑音区間などの音声区間でない区間かどうかの検出には、非特許文献2などの一般的に用いられているVAD(Voice_Activity_Detection)法でもよいし、音声区間でない区間が検出できればそれ以外の方法でもよい。
<雑音付加部216>
雑音付加部216は、合成フィルタ係数a^(i)と制御情報符号と合成信号系列xF^(n)と雑音ゲインgnを取得して、雑音付加処理後信号系列xF^’(n)を生成、出力する(S216)。
雑音付加部216は、合成フィルタ係数a^(i)と制御情報符号と合成信号系列xF^(n)と雑音ゲインgnを取得して、雑音付加処理後信号系列xF^’(n)を生成、出力する(S216)。
より詳細には、雑音付加部216は、図11に示すように、雑音重畳音声判定部2161と、合成ハイパスフィルタ部2162と、雑音付加処理後信号生成部2163とを備える。雑音重畳音声判定部2161は、制御情報符号から、制御情報を復号して、現在のフレームのカテゴリが雑音重畳音声であるか否かを判定し、現在のフレームが雑音重畳音声である場合(S2161BY)、振幅の値が−1から1の間の値をとるランダムに発生させた白色雑音のL点の信号系列を正規化白色雑音信号系列ρ(n)として生成する(SS2161C)。次に、合成ハイパスフィルタ部2162は、正規化白色雑音信号系列ρ(n)を取得して、ハイパスフィルタ(高域通過フィルタ)と、雑音の概形に近づけるために合成フィルタを鈍らせたフィルタを組合せたフィルタを用いて、正規化白色雑音信号系列ρ(n)をフィルタリング処理して、高域通過正規化雑音信号系列ρHPF(n)を生成、出力する(SS2162)。フィルタリング処理には、無限インパルス応答(IIR:Infinite_Impulse_Response)フィルタと有限インパルス応答(FIR:Finite_Impulse_Response)フィルタのどちらを用いてもよい。またそれ以外のフィルタリング処理方法であってもよい。例えば、ハイパスフィルタ(高域通過フィルタ)と合成フィルタを鈍らせたフィルタを組合せたフィルタをH(z)として、次式のようにしてもよい。
ここで、HHPF(z)はハイパスフィルタ、A^(Z/γn)は合成フィルタを鈍らせたフィルタを示す。qは線形予測次数を表し、例えば16とする。γnは雑音の概形に近づけるために合成フィルタを鈍らせるパラメータで、例えば0.8とする。
ハイパスフィルタを用いる理由は、次の通りである。CELP系符号化方式をはじめとする音声の生成モデルに基づく符号化方式では、エネルギーの大きい周波数帯域に多くのビットが配分されるので、音声の特性上、高域ほど音質が劣化しがちである。そこで、ハイパスフィルタを用いることで、音質が劣化している高域に雑音を多く付加し、音質の劣化が小さい低域には雑音を付加しないようにすることができる。これにより、聴感上劣化の少ない、より自然な音を作ることができる。
雑音付加処理後信号生成部2163は、合成信号系列xF^(n)、高域通過正規化雑音信号系列ρHPF(n)、前述した雑音ゲインgnを取得して、例えば次式により雑音付加処理後信号系列xF^’(n)を計算する(SS2163)。
ここで、Cnは0.04等の付加する雑音の大きさを調整する所定の定数とする。
一方、サブステップSS2161Bにおいて、雑音重畳音声判定部2161が現在のフレームが雑音重畳音声でないと判断した場合(SS2161BN)、サブステップSS2161C、SS2162、SS2163は実行されない。この場合、雑音重畳音声判定部2161は、合成信号系列xF^(n)を取得して、当該xF^(n)をそのまま雑音付加処理後信号系列xF^’(n)として出力する(SS2161D)。雑音重畳音声判定部2161から出力される雑音付加処理後信号系列xF^(n)は、そのまま雑音付加部216の出力となる。
<後処理部214>
後処理部214は、入力が合成信号系列から雑音付加処理後信号系列に置き換わったこと以外は、後処理部114と同じである。従って、後処理部214は、雑音付加処理後信号系列xF^’(n)を取得して、スペクトル強調やピッチ強調の処理を雑音付加処理後信号系列xF^’(n)に施し、量子化ノイズを聴覚的に低減させた出力信号系列zF(n)を生成、出力する(S214)。
後処理部214は、入力が合成信号系列から雑音付加処理後信号系列に置き換わったこと以外は、後処理部114と同じである。従って、後処理部214は、雑音付加処理後信号系列xF^’(n)を取得して、スペクトル強調やピッチ強調の処理を雑音付加処理後信号系列xF^’(n)に施し、量子化ノイズを聴覚的に低減させた出力信号系列zF(n)を生成、出力する(S214)。
[変形例1]
以下、図9、図10を参照して実施例1の変形例に係る復号装置4’について説明する。図9に示すように、本変形例の復号装置4’は、分離部209と、線形予測係数復号部110と、合成フィルタ部111と、ゲイン符号帳部112と、駆動音源ベクトル生成部113と、後処理部214と、雑音付加部216と、雑音ゲイン計算部217’とを備える。実施例1の復号装置4との差分は、実施例1における雑音ゲイン計算部217が本変形例において雑音ゲイン計算部217’となっている点のみである。
以下、図9、図10を参照して実施例1の変形例に係る復号装置4’について説明する。図9に示すように、本変形例の復号装置4’は、分離部209と、線形予測係数復号部110と、合成フィルタ部111と、ゲイン符号帳部112と、駆動音源ベクトル生成部113と、後処理部214と、雑音付加部216と、雑音ゲイン計算部217’とを備える。実施例1の復号装置4との差分は、実施例1における雑音ゲイン計算部217が本変形例において雑音ゲイン計算部217’となっている点のみである。
<雑音ゲイン計算部217’>
雑音ゲイン計算部217’は、合成信号系列xF^(n)の代わりに、雑音付加処理後信号系列xF^’(n)を取得して、現在のフレームが雑音区間などの音声区間でない区間であれば、例えば次式を用いて雑音ゲインgnを計算する(S217’)。
前述同様、雑音ゲインgnを式(3’)で計算してもよい。
前述同様、雑音ゲインgnの計算式は式(4’)や式(5’)であってもよい。
雑音ゲイン計算部217’は、合成信号系列xF^(n)の代わりに、雑音付加処理後信号系列xF^’(n)を取得して、現在のフレームが雑音区間などの音声区間でない区間であれば、例えば次式を用いて雑音ゲインgnを計算する(S217’)。
このように、本実施例および変形例の符号化装置3、復号装置4(4’)によれば、CELP系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても、モデルに当てはまらないことによる量子化歪みがマスクされることで不快な音が知覚されづらくなり、より自然な再生音を実現できる。
前述した実施例1及びその変形例では、符号化装置、復号装置の具体的な計算、出力方法を記載したが、本発明の符号化装置(符号化方法)、復号装置(復号方法)は前述の実施例1及びその変形例に例示した具体的な方法に限定されない。以下、本発明の復号装置の動作を別の表現で記載する。本発明における復号音声信号(実施例1において合成信号系列xF^(n)として例示)を生成するまでの手順(実施例1においてステップS209、S112、S113、S110、S111として例示)をひとつの音声復号ステップと捉えることができる。また、雑音信号を生成するステップ(実施例1においてサブステップSS2161Cとして例示)を雑音生成ステップと呼ぶこととする。さらに、雑音付加処理後信号を生成するステップ(実施例1においてサブステップSS2163として例示)を雑音付加ステップと呼ぶこととする。
この場合、音声復号ステップと雑音生成ステップと雑音付加ステップとを含む、より一般化された復号方法を見出すことができる。音声復号ステップでは、入力された符号から復号音声信号(xF^(n)として例示)を得る。雑音生成ステップでは、ランダムな信号である雑音信号(実施例1において、正規化白色雑音信号系列ρ(n)として例示)を生成する。雑音付加ステップでは、過去のフレームの復号音声信号に対応するパワー(実施例1において雑音ゲインgnとして例示)と現在のフレームの復号音声信号に対応するスペクトル包絡(実施例1においてフィルタA^(z)やA^(z/γn)またはこれらを含むフィルタとして例示)との少なくとも何れかに基づく信号処理を雑音信号(ρ(n)として例示)に対して行って得られる信号と、復号音声信号(xF^(n)として例示)とを加算して得た雑音付加処理後信号(実施例1においてxF^’(n)として例示)を出力信号とする。
本発明の復号方法のバリエーションとしてさらに、前述の現在のフレームの復号音声信号に対応するスペクトル包絡は、音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータ(実施例1ではa^(i)として例示)に対応するスペクトル包絡を鈍らせたスペクトル包絡(実施例1においてA^(z/γn)として例示)であってもよい。
さらに、前述の現在のフレームの復号音声信号に対応するスペクトル包絡は、音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータ(a^(i)として例示)に基づくスペクトル包絡(実施例1においてA^(z)として例示)であってもよい。
さらに、前述の雑音付加ステップは、雑音信号(ρ(n)として例示)に現在のフレームの復号音声信号に対応するスペクトル包絡(フィルタA^(z)やA^(z/γn)などを例示)が与えられ過去のフレームの復号音声信号に対応するパワー(gnとして例示)を乗算された信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
さらに、前述の雑音付加ステップは、雑音信号に現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ低域を抑圧または高域を強調(実施例1において式(6)などに例示)された信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
さらに、前述の雑音付加ステップは、雑音信号に現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ過去のフレームの復号音声信号に対応するパワーが乗算され低域を抑圧または高域を強調(式(6)、(8)などに例示)された信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
さらに、前述の雑音付加ステップは、現在のフレームの復号音声信号に対応するスペクトル包絡を雑音信号に与えた信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
さらに、前述の雑音付加ステップは、過去のフレームの復号音声信号に対応するパワーと前記雑音信号とを乗算した信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (18)
- 入力された符号から復号音声信号を得る音声復号ステップと、
ランダムな信号である雑音信号を生成する雑音生成ステップと、
過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を前記雑音信号に対して行って得られる信号と、前記復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする雑音付加ステップと、
を含むことを特徴とする復号方法。 - 前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
前記音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータに対応するスペクトル包絡を鈍らせたスペクトル包絡である
ことを特徴とする請求項1に記載の復号方法。 - 前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
前記音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータに基づくスペクトル包絡である
ことを特徴とする請求項1に記載の復号方法。 - 前記雑音付加ステップは、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーを乗算された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項1から3の何れかに記載の復号方法。 - 前記雑音付加ステップは、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項1から3の何れかに記載の復号方法。 - 前記雑音付加ステップは、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーが乗算され低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項1から3の何れかに記載の復号方法。 - 前記雑音付加ステップは、
前記現在のフレームの復号音声信号に対応するスペクトル包絡を前記雑音信号に与えた信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項1から3の何れかに記載の復号方法。 - 前記雑音付加ステップは、
前記過去のフレームの復号音声信号に対応するパワーと前記雑音信号とを乗算した信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項1に記載の復号方法。 - 入力された符号から復号音声信号を得る音声復号部と、
ランダムな信号である雑音信号を生成する雑音生成部と、
過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を前記雑音信号に対して行って得られる信号と、前記復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする雑音付加部と、
を含むことを特徴とする復号装置。 - 前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
前記音声復号部で得られた現在のフレームのスペクトル包絡パラメータに対応するスペクトル包絡を鈍らせたスペクトル包絡である
ことを特徴とする請求項9に記載の復号装置。 - 前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
前記音声復号部で得られた現在のフレームのスペクトル包絡パラメータに基づくスペクトル包絡である
ことを特徴とする請求項9に記載の復号装置。 - 前記雑音付加部は、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーを乗算された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項9から11の何れかに記載の復号装置。 - 前記雑音付加部は、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項9から11の何れかに記載の復号装置。 - 前記雑音付加部は、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーが乗算され低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項9から11の何れかに記載の復号装置。 - 前記雑音付加部は、
前記現在のフレームの復号音声信号に対応するスペクトル包絡を前記雑音信号に与えた信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項9から11の何れかに記載の復号装置。 - 前記雑音付加部は、
前記過去のフレームの復号音声信号に対応するパワーと前記雑音信号とを乗算した信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項9に記載の復号装置。 - 請求項1から請求項8のいずれかに記載された復号方法の各ステップをコンピュータに実行させるためのプログラム。
- 請求項1から請求項8のいずれかに記載された復号方法の各ステップをコンピュータに実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012188462 | 2012-08-29 | ||
JP2012188462 | 2012-08-29 | ||
PCT/JP2013/072947 WO2014034697A1 (ja) | 2012-08-29 | 2013-08-28 | 復号方法、復号装置、プログラム、及びその記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2014034697A1 true JPWO2014034697A1 (ja) | 2016-08-08 |
Family
ID=50183505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014533035A Pending JPWO2014034697A1 (ja) | 2012-08-29 | 2013-08-28 | 復号方法、復号装置、プログラム、及びその記録媒体 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9640190B2 (ja) |
EP (1) | EP2869299B1 (ja) |
JP (1) | JPWO2014034697A1 (ja) |
KR (1) | KR101629661B1 (ja) |
CN (3) | CN107945813B (ja) |
ES (1) | ES2881672T3 (ja) |
PL (1) | PL2869299T3 (ja) |
WO (1) | WO2014034697A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
CN111630594B (zh) * | 2017-12-01 | 2023-08-01 | 日本电信电话株式会社 | 基音增强装置、其方法以及记录介质 |
CN109286470B (zh) * | 2018-09-28 | 2020-07-10 | 华中科技大学 | 一种主动非线性变换信道加扰传输方法 |
JP7218601B2 (ja) * | 2019-02-12 | 2023-02-07 | 日本電信電話株式会社 | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0954600A (ja) * | 1995-08-14 | 1997-02-25 | Toshiba Corp | 音声符号化通信装置 |
JP2000235400A (ja) * | 1999-02-15 | 2000-08-29 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体 |
JP2004302258A (ja) * | 2003-03-31 | 2004-10-28 | Matsushita Electric Ind Co Ltd | 音声復号化装置および音声復号化方法 |
JP2008134649A (ja) * | 1995-10-26 | 2008-06-12 | Sony Corp | 音声信号の再生方法及び装置 |
JP2008151958A (ja) * | 2006-12-15 | 2008-07-03 | Sharp Corp | 信号処理方法、信号処理装置及びプログラム |
WO2008108082A1 (ja) * | 2007-03-02 | 2008-09-12 | Panasonic Corporation | 音声復号装置および音声復号方法 |
JP2009069856A (ja) * | 2000-10-18 | 2009-04-02 | Nokia Corp | 音声コーデックにおける擬似高帯域信号の推定方法 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01261700A (ja) * | 1988-04-13 | 1989-10-18 | Hitachi Ltd | 音声符号化方式 |
JP2940005B2 (ja) * | 1989-07-20 | 1999-08-25 | 日本電気株式会社 | 音声符号化装置 |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
US5657422A (en) * | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
JP3568255B2 (ja) * | 1994-10-28 | 2004-09-22 | 富士通株式会社 | 音声符号化装置及びその方法 |
JP2806308B2 (ja) * | 1995-06-30 | 1998-09-30 | 日本電気株式会社 | 音声復号化装置 |
JP3707116B2 (ja) * | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
JP4132109B2 (ja) * | 1995-10-26 | 2008-08-13 | ソニー株式会社 | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 |
GB2322778B (en) * | 1997-03-01 | 2001-10-10 | Motorola Ltd | Noise output for a decoded speech signal |
FR2761512A1 (fr) * | 1997-03-25 | 1998-10-02 | Philips Electronics Nv | Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif |
US6301556B1 (en) * | 1998-03-04 | 2001-10-09 | Telefonaktiebolaget L M. Ericsson (Publ) | Reducing sparseness in coded speech signals |
US6122611A (en) * | 1998-05-11 | 2000-09-19 | Conexant Systems, Inc. | Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise |
WO2000034944A1 (fr) * | 1998-12-07 | 2000-06-15 | Mitsubishi Denki Kabushiki Kaisha | Decodeur sonore et procede de decodage sonore |
JP3478209B2 (ja) * | 1999-11-01 | 2003-12-15 | 日本電気株式会社 | 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体 |
AU2547201A (en) | 2000-01-11 | 2001-07-24 | Matsushita Electric Industrial Co., Ltd. | Multi-mode voice encoding device and decoding device |
JP2001242896A (ja) * | 2000-02-29 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 音声符号化/復号装置およびその方法 |
US6529867B2 (en) * | 2000-09-15 | 2003-03-04 | Conexant Systems, Inc. | Injecting high frequency noise into pulse excitation for low bit rate CELP |
WO2002045078A1 (en) * | 2000-11-30 | 2002-06-06 | Matsushita Electric Industrial Co., Ltd. | Audio decoder and audio decoding method |
KR100910282B1 (ko) * | 2000-11-30 | 2009-08-03 | 파나소닉 주식회사 | Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, 기록 매체, 음성 부호화 장치, 음성 복호화장치, 음성 신호 송신 장치, 및 음성 신호 수신 장치 |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
JP4657570B2 (ja) * | 2002-11-13 | 2011-03-23 | ソニー株式会社 | 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体 |
US20060116874A1 (en) * | 2003-10-24 | 2006-06-01 | Jonas Samuelsson | Noise-dependent postfiltering |
JP4434813B2 (ja) * | 2004-03-30 | 2010-03-17 | 学校法人早稲田大学 | 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置 |
US7610197B2 (en) * | 2005-08-31 | 2009-10-27 | Motorola, Inc. | Method and apparatus for comfort noise generation in speech communication systems |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
CN101304261B (zh) * | 2007-05-12 | 2011-11-09 | 华为技术有限公司 | 一种频带扩展的方法及装置 |
CN101308658B (zh) * | 2007-05-14 | 2011-04-27 | 深圳艾科创新微电子有限公司 | 一种基于片上***的音频解码器及其解码方法 |
KR100998396B1 (ko) * | 2008-03-20 | 2010-12-03 | 광주과학기술원 | 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치 |
CN100550133C (zh) * | 2008-03-20 | 2009-10-14 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN101582263B (zh) * | 2008-05-12 | 2012-02-01 | 华为技术有限公司 | 语音解码中噪音增强后处理的方法和装置 |
BRPI0910517B1 (pt) * | 2008-07-11 | 2022-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Um aparelho e um método para calcular um número de envelopes espectrais a serem obtidos por um codificador de replicação de banda espectral (sbr) |
US8364471B2 (en) * | 2008-11-04 | 2013-01-29 | Lg Electronics Inc. | Apparatus and method for processing a time domain audio signal with a noise filling flag |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
MX2013009305A (es) * | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Generacion de ruido en codecs de audio. |
-
2013
- 2013-08-28 US US14/418,328 patent/US9640190B2/en active Active
- 2013-08-28 ES ES13832346T patent/ES2881672T3/es active Active
- 2013-08-28 PL PL13832346T patent/PL2869299T3/pl unknown
- 2013-08-28 JP JP2014533035A patent/JPWO2014034697A1/ja active Pending
- 2013-08-28 EP EP13832346.4A patent/EP2869299B1/en active Active
- 2013-08-28 CN CN201810027226.9A patent/CN107945813B/zh active Active
- 2013-08-28 WO PCT/JP2013/072947 patent/WO2014034697A1/ja active Application Filing
- 2013-08-28 KR KR1020157003110A patent/KR101629661B1/ko active IP Right Grant
- 2013-08-28 CN CN201810026834.8A patent/CN108053830B/zh active Active
- 2013-08-28 CN CN201380044549.4A patent/CN104584123B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0954600A (ja) * | 1995-08-14 | 1997-02-25 | Toshiba Corp | 音声符号化通信装置 |
JP2008134649A (ja) * | 1995-10-26 | 2008-06-12 | Sony Corp | 音声信号の再生方法及び装置 |
JP2000235400A (ja) * | 1999-02-15 | 2000-08-29 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体 |
JP2009069856A (ja) * | 2000-10-18 | 2009-04-02 | Nokia Corp | 音声コーデックにおける擬似高帯域信号の推定方法 |
JP2004302258A (ja) * | 2003-03-31 | 2004-10-28 | Matsushita Electric Ind Co Ltd | 音声復号化装置および音声復号化方法 |
JP2008151958A (ja) * | 2006-12-15 | 2008-07-03 | Sharp Corp | 信号処理方法、信号処理装置及びプログラム |
WO2008108082A1 (ja) * | 2007-03-02 | 2008-09-12 | Panasonic Corporation | 音声復号装置および音声復号方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107945813B (zh) | 2021-10-26 |
ES2881672T3 (es) | 2021-11-30 |
CN108053830B (zh) | 2021-12-07 |
US9640190B2 (en) | 2017-05-02 |
WO2014034697A1 (ja) | 2014-03-06 |
PL2869299T3 (pl) | 2021-12-13 |
KR20150032736A (ko) | 2015-03-27 |
EP2869299A1 (en) | 2015-05-06 |
CN108053830A (zh) | 2018-05-18 |
KR101629661B1 (ko) | 2016-06-13 |
CN104584123B (zh) | 2018-02-13 |
US20150194163A1 (en) | 2015-07-09 |
EP2869299B1 (en) | 2021-07-21 |
EP2869299A4 (en) | 2016-06-01 |
CN107945813A (zh) | 2018-04-20 |
CN104584123A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6423460B2 (ja) | フレームエラー隠匿装置 | |
KR101350285B1 (ko) | 신호를 부호화 및 복호화하는 방법, 장치 및 시스템 | |
JPH11327597A (ja) | 音声符号化装置及び音声復号化装置 | |
US6910009B1 (en) | Speech signal decoding method and apparatus, speech signal encoding/decoding method and apparatus, and program product therefor | |
WO2014034697A1 (ja) | 復号方法、復号装置、プログラム、及びその記録媒体 | |
JPH1063297A (ja) | 音声符号化方法および装置 | |
JP2002268686A (ja) | 音声符号化装置及び音声復号化装置 | |
JP2003044099A (ja) | ピッチ周期探索範囲設定装置及びピッチ周期探索装置 | |
JP4438280B2 (ja) | トランスコーダ及び符号変換方法 | |
JP3785363B2 (ja) | 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP4238535B2 (ja) | 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体 | |
KR20080034818A (ko) | 부호화/복호화 장치 및 방법 | |
JPH0519796A (ja) | 音声の励振信号符号化・復号化方法 | |
JP6001451B2 (ja) | 符号化装置及び符号化方法 | |
JP3024467B2 (ja) | 音声符号化装置 | |
JPH08272394A (ja) | 音声符号化装置 | |
KR20080092823A (ko) | 부호화/복호화 장치 및 방법 | |
JP3576805B2 (ja) | 音声符号化方法及びシステム並びに音声復号化方法及びシステム | |
JP2002244700A (ja) | 音声符号化装置、音声符号化方法および記憶素子 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160517 |